論文の概要: Echoes of Agreement: Argument Driven Opinion Shifts in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.09759v1
- Date: Mon, 11 Aug 2025 20:54:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.885044
- Title: Echoes of Agreement: Argument Driven Opinion Shifts in Large Language Models
- Title(参考訳): 合意のエコー: 大規模言語モデルにおける議論駆動の意見転換
- Authors: Avneet Kaur,
- Abstract要約: 政治偏見評価実験を,支持論と反感論の存在下で実施する。
実験により, 与えられた議論の方向に対するモデル応答が, 実質的に変化していることが示唆された。
これらの効果は、LLMが提示された議論と整合する姿勢に適応する際の空想傾向を示している。
- 参考スコア(独自算出の注目度): 0.36713387874278247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There have been numerous studies evaluating bias of LLMs towards political topics. However, how positions towards these topics in model outputs are highly sensitive to the prompt. What happens when the prompt itself is suggestive of certain arguments towards those positions remains underexplored. This is crucial for understanding how robust these bias evaluations are and for understanding model behaviour, as these models frequently interact with opinionated text. To that end, we conduct experiments for political bias evaluation in presence of supporting and refuting arguments. Our experiments show that such arguments substantially alter model responses towards the direction of the provided argument in both single-turn and multi-turn settings. Moreover, we find that the strength of these arguments influences the directional agreement rate of model responses. These effects point to a sycophantic tendency in LLMs adapting their stance to align with the presented arguments which has downstream implications for measuring political bias and developing effective mitigation strategies.
- Abstract(参考訳): LLMの政治的トピックに対する偏見を評価する研究は数多くある。
しかし、モデル出力におけるこれらのトピックに対する姿勢は、プロンプトに対して非常に敏感である。
プロンプト自体がそれらの位置に対する特定の議論の示唆であるときに何が起こるかは、未解明のままである。
これは、これらのバイアス評価がどれほど堅牢であるかを理解し、モデル行動を理解するために重要である。
そこで本稿では,政治的偏見評価実験を行い,議論の支持と反証を行う。
実験により, 与えられた引数の方向に対するモデル応答を, シングルターンとマルチターンの両方で実質的に変化させることが確認できた。
さらに,これらの議論の強みがモデル応答の方向性の一致率に影響を及ぼすことがわかった。
これらの効果は、政治的偏見を測り、効果的な緩和戦略を開発するために下流に影響を及ぼす議論と一致させるために、LLMの姿勢に適応するシコファン傾向を示している。
関連論文リスト
- Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - A Theory of Response Sampling in LLMs: Part Descriptive and Part Prescriptive [53.08398658452411]
大規模言語モデル(LLM)は、自律的な意思決定にますます活用されている。
このサンプリング行動が人間の意思決定と類似していることが示される。
統計的ノルムから規範的成分へのサンプルの偏りは、様々な現実世界の領域にまたがる概念に一貫して現れることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:28:43Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。