論文の概要: Measuring Opinion Bias and Sycophancy via LLM-based Persuasion
- arxiv url: http://arxiv.org/abs/2604.21564v2
- Date: Thu, 30 Apr 2026 16:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.54848
- Title: Measuring Opinion Bias and Sycophancy via LLM-based Persuasion
- Title(参考訳): LLMに基づく説得によるオピニオンバイアスとシクロファンシーの測定
- Authors: Rodrigo Nogueira, Giovana Kerche Bonás, Thales Sales Almeida, Andrea Roque, Ramon Pires, Hugo Abonizio, Thiago Laitz, Celio Larcher, Roseval Malaquias Junior, Marcos Piau,
- Abstract要約: 提案手法は,提案するトピックに対して,アシスタントが持つ意見を検出する方法である。
直接探索は、シミュレーションされたユーザーから圧力をエスカレートする5ターンにわたってモデルの意見を求める。
間接的調査は決して意見を求めず、議論的な議論においてモデルを関与させ、それがどのように譲歩し、抵抗し、あるいは反弁論をするかを通してバイアスを漏らす。
- 参考スコア(独自算出の注目度): 8.399156116912904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models increasingly shape the information people consume: they are embedded in search, consulted for professional advice, deployed as agents, and used as a first stop for questions about policy, ethics, health, and politics. When such a model silently holds a position on a contested topic, that position propagates at scale into users' decisions. Eliciting a model's positions is harder than it first appears: contemporary assistants answer direct opinion questions with evasive disclaimers, and the same model may concede the opposite position once the user starts arguing one side. We propose a method, released as the open-source llm-bias-bench, for discovering the opinions an LLM actually holds on contested topics under conditions that resemble real multi-turn interaction. The method pairs two complementary free-form probes. Direct probing asks for the model's opinion across five turns of escalating pressure from a simulated user. Indirect probing never asks for an opinion and engages the model in argumentative debate, letting bias leak through how it concedes, resists, or counter-argues. Three user personas (neutral, agree, disagree) collapse into a nine-way behavioral classification that separates persona-independent positions from persona-dependent sycophancy, and an auditable LLM judge produces verdicts with textual evidence. The first instantiation ships 38 topics in Brazilian Portuguese across values, scientific consensus, philosophy, and economic policy. Applied to 13 assistants, the method surfaces findings of practical interest: argumentative debate triggers sycophancy 2-3x more than direct questioning (median 50% to 79%); models that look opinionated under direct questioning often collapse into mirroring under sustained arguments; and attacker capability matters mainly when an existing opinion must be dislodged, not when the assistant starts neutral.
- Abstract(参考訳): 大きな言語モデルは、人々が消費する情報をますます形作る。それらは検索に埋め込まれ、専門的なアドバイスを求めて相談され、エージェントとしてデプロイされ、政策、倫理、健康、政治に関する質問の第一点として使用される。
このようなモデルが、競合するトピックのポジションを静かに保持すると、そのポジションは、ユーザの決定に大きく伝播する。
モデルの位置をアクティベートすることは、最初に現れるよりも難しい: 現代のアシスタントは、回避的不服従者による直接的な意見質問に答え、同じモデルが、ユーザーが一方の議論を始めると、反対の位置を判断する。
本稿では,lm-bias-benchをオープンソースとしてリリースし,LLMが実際のマルチターンインタラクションに類似した条件下で,競合するトピックに対して実際に保持する意見を発見する手法を提案する。
この方法は2つの相補的な自由形プローブをペアリングする。
直接探索は、シミュレーションされたユーザーから圧力をエスカレートする5ターンにわたってモデルの意見を求める。
間接的調査は決して意見を求めず、議論的な議論においてモデルを関与させ、それがどのように譲歩し、抵抗し、あるいは反弁論をするかを通してバイアスを漏らす。
3人のユーザペルソナ(中立、同意、反対)は、ペルソナ非依存的な位置とペルソナ非依存的な位置を区別する9方向の行動分類に崩壊し、監査可能なLCM判事は、テキストによる証拠で評決を生成する。
最初のインスタンス化は、価値、科学的コンセンサス、哲学、経済政策など、ブラジルポルトガル語で38のトピックを出荷している。
議論的議論は、直接質問よりも2~3倍多くの梅毒を誘発する(中間50%から79%)、直接質問の下で意見が分かれたモデルは、しばしば持続的な議論の下でミラーリングに崩壊する、そして攻撃能力は、アシスタントが中立な時にではなく、既存の意見が破棄されなければならない場合に主に重要である。
関連論文リスト
- Do LLMs Benefit From Their Own Words? [56.73014497206615]
先行するアシスタント応答の除去は,少数のターンにおいて応答品質に影響を与えないことがわかった。
アシスタント側コンテキストのオミッティングは、累積コンテキストの長さを最大10倍に減らすことができる。
本研究は, 記憶量削減を図り, アシスタント履歴を選択的に省略することで, 応答品質を向上できることを示唆する。
論文 参考訳(メタデータ) (2026-02-27T18:58:26Z) - Challenging the Evaluator: LLM Sycophancy Under User Rebuttal [31.382403990957528]
大規模言語モデルは、しばしば、ユーザの信念に沿った反応を歪ませて、サイコフィナンシーを示す。
本研究は、LLMがその後の会話のターンに挑戦しても、同時に提示される矛盾する議論を評価する際には、なぜサイコフィナンシーを示すのかを考察する。
評価のために両方の応答が同時に提示される場合よりも、ユーザからのフォローアップとしてフレーム化された場合、最先端のモデルの方が、ユーザの反論を裏付ける傾向にある。
論文 参考訳(メタデータ) (2025-09-20T04:44:01Z) - Echoes of Agreement: Argument Driven Opinion Shifts in Large Language Models [0.36713387874278247]
政治偏見評価実験を,支持論と反感論の存在下で実施する。
実験により, 与えられた議論の方向に対するモデル応答が, 実質的に変化していることが示唆された。
これらの効果は、LLMが提示された議論と整合する姿勢に適応する際の空想傾向を示している。
論文 参考訳(メタデータ) (2025-08-11T20:54:14Z) - Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ? [22.0383367888756]
大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。
LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。
我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
論文 参考訳(メタデータ) (2024-10-17T13:06:02Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - M2P2: Multimodal Persuasion Prediction using Adaptive Fusion [65.04045695380333]
本稿では,ディベートアウトカム予測 (DOP) 問題において,誰が討論に勝つかを予測し,IPP (Intensity of Persuasion Prediction) 問題では,講演者の発言前後の投票数の変化を予測する。
我々のM2P2フレームワークはIPP問題を解決するためにマルチモーダル(音響、視覚、言語)データを使用した最初のフレームワークです。
論文 参考訳(メタデータ) (2020-06-03T18:47:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。