論文の概要: Can Language Models Recognize Convincing Arguments?
- arxiv url: http://arxiv.org/abs/2404.00750v1
- Date: Sun, 31 Mar 2024 17:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 02:01:08.988125
- Title: Can Language Models Recognize Convincing Arguments?
- Title(参考訳): 言語モデルは問題を理解することができるか?
- Authors: Paula Rescala, Manoel Horta Ribeiro, Tiancheng Hu, Robert West,
- Abstract要約: 大規模言語モデル(LLM)は、パーソナライズされ説得力のある誤情報やプロパガンダを作成するために、その潜在的な誤用を懸念している。
疑わしい議論を検出するための関連課題について,その性能について検討する。
これらのタスクにおいて、LLMは人間と同等に動作し、異なるLLMからの予測を組み合わせることで、大幅な性能向上が得られることを示す。
- 参考スコア(独自算出の注目度): 12.458437450959416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable and ever-increasing capabilities of Large Language Models (LLMs) have raised concerns about their potential misuse for creating personalized, convincing misinformation and propaganda. To gain insights into LLMs' persuasive capabilities without directly engaging in experimentation with humans, we propose studying their performance on the related task of detecting convincing arguments. We extend a dataset by Durmus & Cardie (2018) with debates, votes, and user traits and propose tasks measuring LLMs' ability to (1) distinguish between strong and weak arguments, (2) predict stances based on beliefs and demographic characteristics, and (3) determine the appeal of an argument to an individual based on their traits. We show that LLMs perform on par with humans in these tasks and that combining predictions from different LLMs yields significant performance gains, even surpassing human performance. The data and code released with this paper contribute to the crucial ongoing effort of continuously evaluating and monitoring the rapidly evolving capabilities and potential impact of LLMs.
- Abstract(参考訳): LLM(Large Language Models)の目覚ましい能力は、パーソナライズされ、説得力のある誤情報やプロパガンダを作成するために、その潜在的な誤用を懸念している。
そこで本研究では,人間と直接的に実験を行うことなく,LLMの説得能力に関する知見を得るために,説得的議論を検出するための関連課題について,その性能について検討する。
We extended a dataset by Durmus & Cardie (2018) with debates, vote, and user traits and propose task to measure LLMs's ability between strong and weak arguments, (2) predicts based on beliefs and population characteristics, and (3) determine the appeal of an argument to an individual baseds based on their traits。
これらの課題において、LLMは人間と同等の性能を示し、異なるLLMからの予測を組み合わせることで、人のパフォーマンスを超越しても、大きな性能向上が得られることを示した。
本稿では, LLMの急速な発展と潜在的な影響を継続的に評価し, 監視する重要な取り組みに寄与する。
関連論文リスト
- Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Comparing Rationality Between Large Language Models and Humans: Insights and Open Questions [6.201550639431176]
本稿では,大規模言語モデル(LLM)の急成長に焦点をあてる。
我々は,LLMの合理性と意思決定能力の増強において,人間フィードバックからの強化学習(RLHF)が果たす重要な役割を強調した。
論文 参考訳(メタデータ) (2024-03-14T18:36:04Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [113.72984199026094]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
生成モデルのカウンターファクトの能力を効果的に評価するために,革新的な評価指標であるLogicAware Counterfactual Scoreを提案する。
分析の結果,提案手法は人間の好みとよく一致していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Large language models can enhance persuasion through linguistic feature
alignment [3.054681017071983]
本研究では,大規模言語モデル(LLM)が,金融業界における消費者の苦情に対するデータを用いた人的コミュニケーションに与える影響について検討する。
ChatGPT のリリース直後に LLM の利用が急増していることが判明した。
計算言語学的分析は、LLMsによる様々な言語的特徴の強化によって、正の相関が説明できることを示唆している。
論文 参考訳(メタデータ) (2023-11-28T04:07:34Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
計算的議論に関する研究は、主に議論マイニングと議論生成の2つのタイプのタスクを含む。
大規模言語モデルは、文脈を理解し、自然言語を生成する強力な能力を示している。
既存のタスクを6つの主要なカテゴリに分類し、14のオープンソースデータセットのフォーマットを標準化します。
さらに,LLMのエンドツーエンド性能を総合的に評価することを目的とした,対向音声生成のための新しいベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Evaluating the Deductive Competence of Large Language Models [0.2218292673050528]
本稿では,いくつかの大規模言語モデル (LLM) が,古典的な帰納的推論問題を解くことができるかどうかを考察する。
性能は条件によって異なるが、全体的な性能は改善されない。
人的パフォーマンスとは違って,プレゼンテーション形式やコンテンツとのインタラクションが予期せぬ形で行われていることが判明した。
論文 参考訳(メタデータ) (2023-09-11T13:47:07Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning
Skills of LLMs [0.0]
本研究では,大規模言語モデル(LLM)の性能について,様々な推論課題について検討する。
その結果, LLMは類推的, 道徳的推論において優れているが, 空間的推論タスクにおいて, 熟達に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2023-03-22T22:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。