Fugu-MT 論文翻訳(概要): Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style

論文の概要: Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style

arxiv url: http://arxiv.org/abs/2402.08498v2
Date: Fri, 23 Feb 2024 14:07:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-26 17:21:23.488307
Title: Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style
Title（参考訳）: 監査カウンセリングエビデンスとスタイルによる高度な反論生成の評価
Authors: Preetika Verma, Kokil Jaidka, Svetlana Churina
Abstract要約: 本稿では, 議論の精錬, マイニング, 評価におけるさらなる応用を目的とした, 逆論の制御された構成のための新しいデータセットを提案する。我々のデータセットはReddit ChangeMyViewデータセットの投稿に対する豊富な反論で構成されており、高品質な情報源から取得した証拠と統合されている。結果の対火コーパスは、GPT-3.5ターボ、コアラ、PALM 2モデルと2種類の微調整された派生機からなる。
参考スコア（独自算出の注目度）: 12.636213065708318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel dataset for the controlled composition of counterarguments designed for further applications in argument refining, mining, and evaluation. Our dataset constitutes enriched counter-arguments to posts in the Reddit ChangeMyView dataset that are integrated with evidence retrieved from high-quality sources and generated based on user preferences, adjusting the critical attributes of evidence and argument style. The resultant Counterfire corpus comprises arguments generated from GPT-3.5 turbo, Koala, and PaLM 2 models and two of their finetuned variants (N = 32,000). Model evaluation indicates strong paraphrasing abilities with evidence, albeit limited word overlap, while demonstrating high style integration (0.9682 for 'reciprocity'), showing the ability of LLM to assimilate diverse styles. Of all models, GPT-3.5 turbo showed the highest scores in argument quality evaluation, showing consistent accuracy (score >0.8). In further analyses, reciprocity-style counterarguments display higher counts in most categories, possibly indicating a more creatively persuasive use of evidence. In contrast, human-written counterarguments exhibited greater argumentative richness and diversity across categories. Despite human-written arguments being favored as the most persuasive in human evaluation, the 'No Style' generated text surprisingly exhibited the highest score, prompting further exploration and investigation on the trade-offs in generation for facts and style.
Abstract（参考訳）: 本稿では, 議論の精錬, マイニング, 評価のさらなる応用のために設計された, 対置文の制御構成のための新しいデータセットを提案する。我々のデータセットはReddit ChangeMyViewデータセットの投稿に対して、高品質な情報源から取得した証拠と統合され、ユーザの好みに基づいて生成され、エビデンスと議論スタイルの臨界属性を調整した豊富な反論を構成する。結果の対火コーパスは、GPT-3.5ターボ、コアラ、PALM 2モデルと2つの微調整された派生型(N = 32,000)から生成される議論を含む。モデル評価は,多種多様なスタイルを同化させるLLMの能力を示すとともに,高いスタイルの統合(0.9682は「相互性」)を示した。全てのモデルにおいて、GPT-3.5ターボは引数の品質評価において最高スコアを示し、一貫した精度(スコア >0.8)を示した。さらなる分析では、相互主義的な逆説は、ほとんどのカテゴリーにおいてより高い数を示し、おそらくはより創造的に説得力のある証拠の使用を示す。対照的に、人文による反論は、カテゴリー間でより議論的な豊かさと多様性を示した。人文による評論が最も説得力に富むものとして好まれているにもかかわらず、「無様」のテキストは驚くほど高いスコアを示し、事実や様式の世代におけるトレードオフのさらなる調査と調査を促した。

関連論文リスト

Debating Truth: Debate-driven Claim Verification with Multiple Large Language Model Agents [13.626715532559079]
複数のLLMエージェントを用いた議論駆動手法を採用した最初のクレーム検証フレームワークであるDebateCVを提案する。本フレームワークでは,2つのデバタがクレームに対して反対の立場をとり,複数ラウンドの議論を行う一方,モデレーターは議論を評価し,正当化とともに評決を行う。実験の結果,提案手法は,証拠品質の異なる既存のクレーム検証方法よりも優れていることがわかった。
論文参考訳（メタデータ） (2025-07-25T09:19:25Z)
Mitigating Manipulation and Enhancing Persuasion: A Reflective Multi-Agent Approach for Legal Argument Generation [4.329583019758787]
大規模言語モデル(LLM)は、法的議論生成のためにますます研究されている。 LLMは幻覚と未解決の説得による操作の重大なリスクを負う。本稿では,これらの課題に対処するために,新しい反射型マルチエージェント手法を提案する。
論文参考訳（メタデータ） (2025-06-03T15:28:30Z)
Calling a Spade a Heart: Gaslighting Multimodal Large Language Models via Negation [65.92001420372007]
本稿では,様々なベンチマークにおいて最先端MLLMを体系的に評価する。本稿では,MLLMの脆弱性を否定的議論に対して評価するために設計された,最初のベンチマークであるGaslightingBenchを紹介する。
論文参考訳（メタデータ） (2025-01-31T10:37:48Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。ミスシは、誤った推論のための新しい議論理論モデルである。大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文参考訳（メタデータ） (2024-06-05T12:11:10Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)
Argue with Me Tersely: Towards Sentence-Level Counter-Argument Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文参考訳（メタデータ） (2023-12-21T06:51:34Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
Exploring Jiu-Jitsu Argumentation for Writing Peer Review Rebuttals [70.22179850619519]
議論の多くの領域では、人々の議論はいわゆる態度のルーツによって駆動される。心理学における最近の研究は、表面的な推論に直接対抗するのではなく、ジウジツの「ソフト」戦闘システムに触発された議論スタイルに従うべきであることを示唆している。我々は,新たな態度課題とテーマ誘導的反論生成を提案することによって,ピアレビューのための時事論争を初めて探求する。
論文参考訳（メタデータ） (2023-11-07T13:54:01Z)
Contextualizing Argument Quality Assessment with Relevant Knowledge [11.367297319588411]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文参考訳（メタデータ） (2023-05-20T21:04:58Z)
ArgU: A Controllable Factual Argument Generator [0.0]
ArgUは、入力された事実と実世界の概念から現実の議論を生成することができる神経引数生成器である。我々は6つのトピックと6つの引数スキームにまたがる69,428の引数からなる注釈付きコーパスを作成した。
論文参考訳（メタデータ） (2023-05-09T10:49:45Z)
Persua: A Visual Interactive System to Enhance the Persuasiveness of Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。 Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文参考訳（メタデータ） (2022-04-16T08:07:53Z)
Argument Undermining: Counter-Argument Generation by Attacking Weak Premises [31.463885580010192]
我々は、議論を損なうこと、すなわち、その前提の1つを攻撃することによって議論に逆らうことを探る。そこで我々は,まず前提の強度を評価し,弱体化をターゲットとした逆問題を生成するパイプライン手法を提案する。
論文参考訳（メタデータ） (2021-05-25T08:39:14Z)
Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文参考訳（メタデータ） (2020-04-30T20:17:22Z)
AMPERSAND: Argument Mining for PERSuAsive oNline Discussions [41.06165177604387]
本稿では,オンライン議論フォーラムにおける議論マイニングのための計算モデルを提案する。我々のアプローチは、議論スレッド内の引数のコンポーネント間の関係を識別することに依存します。我々のモデルは最近の最先端のアプローチと比較して大幅に改善されている。
論文参考訳（メタデータ） (2020-04-30T10:33:40Z)
What Changed Your Mind: The Roles of Dynamic Topics and Discourse in Argumentation Process [78.4766663287415]
本稿では,議論の説得力において重要な要因を自動的に分析する研究について述べる。議論的会話における潜在トピックや談話の変化を追跡できる新しいニューラルモデルを提案する。
論文参考訳（メタデータ） (2020-02-10T04:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。