論文の概要: Auditing Counterfire: Evaluating Advanced Counterargument Generation
with Evidence and Style
- arxiv url: http://arxiv.org/abs/2402.08498v2
- Date: Fri, 23 Feb 2024 14:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 17:21:23.488307
- Title: Auditing Counterfire: Evaluating Advanced Counterargument Generation
with Evidence and Style
- Title(参考訳): 監査カウンセリング エビデンスとスタイルによる高度な反論生成の評価
- Authors: Preetika Verma, Kokil Jaidka, Svetlana Churina
- Abstract要約: 本稿では, 議論の精錬, マイニング, 評価におけるさらなる応用を目的とした, 逆論の制御された構成のための新しいデータセットを提案する。
我々のデータセットはReddit ChangeMyViewデータセットの投稿に対する豊富な反論で構成されており、高品質な情報源から取得した証拠と統合されている。
結果の対火コーパスは、GPT-3.5ターボ、コアラ、PALM 2モデルと2種類の微調整された派生機からなる。
- 参考スコア(独自算出の注目度): 12.636213065708318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel dataset for the controlled composition of counterarguments
designed for further applications in argument refining, mining, and evaluation.
Our dataset constitutes enriched counter-arguments to posts in the Reddit
ChangeMyView dataset that are integrated with evidence retrieved from
high-quality sources and generated based on user preferences, adjusting the
critical attributes of evidence and argument style. The resultant Counterfire
corpus comprises arguments generated from GPT-3.5 turbo, Koala, and PaLM 2
models and two of their finetuned variants (N = 32,000). Model evaluation
indicates strong paraphrasing abilities with evidence, albeit limited word
overlap, while demonstrating high style integration (0.9682 for 'reciprocity'),
showing the ability of LLM to assimilate diverse styles. Of all models, GPT-3.5
turbo showed the highest scores in argument quality evaluation, showing
consistent accuracy (score >0.8). In further analyses, reciprocity-style
counterarguments display higher counts in most categories, possibly indicating
a more creatively persuasive use of evidence. In contrast, human-written
counterarguments exhibited greater argumentative richness and diversity across
categories. Despite human-written arguments being favored as the most
persuasive in human evaluation, the 'No Style' generated text surprisingly
exhibited the highest score, prompting further exploration and investigation on
the trade-offs in generation for facts and style.
- Abstract(参考訳): 本稿では, 議論の精錬, マイニング, 評価のさらなる応用のために設計された, 対置文の制御構成のための新しいデータセットを提案する。
我々のデータセットはReddit ChangeMyViewデータセットの投稿に対して、高品質な情報源から取得した証拠と統合され、ユーザの好みに基づいて生成され、エビデンスと議論スタイルの臨界属性を調整した豊富な反論を構成する。
結果の対火コーパスは、GPT-3.5ターボ、コアラ、PALM 2モデルと2つの微調整された派生型(N = 32,000)から生成される議論を含む。
モデル評価は,多種多様なスタイルを同化させるLLMの能力を示すとともに,高いスタイルの統合(0.9682は「相互性」)を示した。
全てのモデルにおいて、GPT-3.5ターボは引数の品質評価において最高スコアを示し、一貫した精度(スコア >0.8)を示した。
さらなる分析では、相互主義的な逆説は、ほとんどのカテゴリーにおいてより高い数を示し、おそらくはより創造的に説得力のある証拠の使用を示す。
対照的に、人文による反論は、カテゴリー間でより議論的な豊かさと多様性を示した。
人文による評論が最も説得力に富むものとして好まれているにもかかわらず、「無様」のテキストは驚くほど高いスコアを示し、事実や様式の世代におけるトレードオフのさらなる調査と調査を促した。
関連論文リスト
- Argue with Me Tersely: Towards Sentence-Level Counter-Argument
Generation [62.069374456021016]
本稿では,文レベル逆問題生成のためのArgTerselyベンチマークを提案する。
また,Arg-LlaMAによる高品質な逆問題生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T06:51:34Z) - Large Language Models are Few-Shot Training Example Generators: A Case
Study in Fallacy Recognition [53.952381499149965]
計算誤認識は、さまざまなジャンル、ドメイン、データセットに見られる誤認識のタイプによって、課題に直面します。
我々は、追加の文脈を取り入れ、大規模な言語モデルを活用して合成データを生成することによって、誤認識のための既存のモデルを強化することを目指している。
評価結果は、誤検出タイプ、データセット、ジェネレータ間で一貫した改善を示す。
論文 参考訳(メタデータ) (2023-11-16T04:17:47Z) - Contextualizing Argument Quality Assessment with Relevant Knowledge [12.195358938525828]
SPARKは、関連する知識による文脈化に基づく議論品質を評価するための新しい手法である。
我々は、大きな言語モデルを利用してフィードバックを提供したり、隠れた仮定を推測したり、同様の品質の議論を提供したり、あるいは反論をしたりする4つの拡張を考案する。
論文 参考訳(メタデータ) (2023-05-20T21:04:58Z) - ArgU: A Controllable Factual Argument Generator [0.0]
ArgUは、入力された事実と実世界の概念から現実の議論を生成することができる神経引数生成器である。
我々は6つのトピックと6つの引数スキームにまたがる69,428の引数からなる注釈付きコーパスを作成した。
論文 参考訳(メタデータ) (2023-05-09T10:49:45Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Conclusion-based Counter-Argument Generation [26.540485804067536]
現実世界の議論では、議論に対処する最も一般的な方法は、その主要なポイント、すなわち結論に対する推論である。
本稿では、入力引数の結論とカウンタの両方を生成するために共同で学習するマルチタスクアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-24T10:49:01Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z) - What Changed Your Mind: The Roles of Dynamic Topics and Discourse in
Argumentation Process [78.4766663287415]
本稿では,議論の説得力において重要な要因を自動的に分析する研究について述べる。
議論的会話における潜在トピックや談話の変化を追跡できる新しいニューラルモデルを提案する。
論文 参考訳(メタデータ) (2020-02-10T04:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。