論文の概要: Deliberative Dynamics and Value Alignment in LLM Debates
- arxiv url: http://arxiv.org/abs/2510.10002v1
- Date: Sat, 11 Oct 2025 04:06:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.731424
- Title: Deliberative Dynamics and Value Alignment in LLM Debates
- Title(参考訳): LLM討論会における議論動力学と価値アライメント
- Authors: Pratik S. Sachdeva, Tom van Nuenen,
- Abstract要約: 大規模言語モデルを用いたマルチターン設定における検討的ダイナミクスと値アライメントについて検討する。
我々は、Redditの"Am I the Asshole"コミュニティから1000のジレンマで注文効果を検証し、検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in sensitive everyday contexts - offering personal advice, mental health support, and moral guidance - understanding their elicited values in navigating complex moral reasoning is essential. Most evaluations study this sociotechnical alignment through single-turn prompts, but it is unclear if these findings extend to multi-turn settings where values emerge through dialogue, revision, and consensus. We address this gap using LLM debate to examine deliberative dynamics and value alignment in multi-turn settings by prompting subsets of three models (GPT-4.1, Claude 3.7 Sonnet, and Gemini 2.0 Flash) to collectively assign blame in 1,000 everyday dilemmas from Reddit's "Am I the Asshole" community. We use both synchronous (parallel responses) and round-robin (sequential responses) formats to test order effects and verdict revision. Our findings show striking behavioral differences. In the synchronous setting, GPT showed strong inertia (0.6-3.1% revision rates) while Claude and Gemini were far more flexible (28-41%). Value patterns also diverged: GPT emphasized personal autonomy and direct communication, while Claude and Gemini prioritized empathetic dialogue. Certain values proved especially effective at driving verdict changes. We further find that deliberation format had a strong impact on model behavior: GPT and Gemini stood out as highly conforming relative to Claude, with their verdict behavior strongly shaped by order effects. These results show how deliberation format and model-specific behaviors shape moral reasoning in multi-turn interactions, underscoring that sociotechnical alignment depends on how systems structure dialogue as much as on their outputs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、個人的なアドバイス、メンタルヘルスのサポート、道徳的ガイダンスを提供するという、繊細な日常的な文脈にますます多くデプロイされているため、複雑な道徳的推論をナビゲートする上で、彼らの要求された価値を理解することが不可欠である。
多くの評価は、この社会技術的アライメントをシングルターンプロンプトを通して研究しているが、これらの発見が対話、リビジョン、コンセンサスを通じて価値が現れるマルチターン設定にまで及んでいるかどうかは不明である。
LLMの議論では、3つのモデルのサブセット(GPT-4.1、Claude 3.7 Sonnet、Gemini 2.0 Flash)にRedditの"Am I the Asshole"コミュニティから毎日1,000のジレンマに責任を負わせるよう促すことにより、マルチターン設定における議論的ダイナミクスと価値アライメントを検証している。
同期(並列応答)とラウンドロビン(逐次応答)の両方のフォーマットを使用して、順序効果のテストと修正の検証を行います。
以上の結果から, 行動的差異が顕著であった。
同期設定では、GPTは強い慣性(0.6-3.1%)を示し、クロードとジェミニはより柔軟(28-41%)であった。
GPTは個人の自律性と直接的なコミュニケーションを強調し、クロードとジェミニは共感的対話を優先した。
ある値は、検証変更を駆動するのに特に有効であることが証明された。
GPT と Gemini は,Claude に対して高い適合性を示した。
これらの結果は,マルチターン相互作用における議論形式とモデル固有の行動が道徳的推論をいかに形成するかを示し,社会工学的アライメントは,システム構造的対話をアウトプットと同等に構成するかに依存することを示した。
関連論文リスト
- CAPE: Context-Aware Personality Evaluation Framework for Large Language Models [8.618075786777219]
大規模言語モデル(LLM)のためのコンテキスト認識型パーソナリティ評価フレームワークを提案する。
実験の結果,会話履歴は文脈内学習による応答の整合性を高めるだけでなく,人格の変化も引き起こすことがわかった。
我々のフレームワークは、人間による判断をより良く整合させるために、ロールプレイングエージェント(RPAs)に適用できる。
論文 参考訳(メタデータ) (2025-08-28T03:17:47Z) - Can LLMs Talk 'Sex'? Exploring How AI Models Handle Intimate Conversations [0.0]
本研究では,4つの大きな言語モデルが質的内容分析によって性的指向の要求をどのように処理するかを検討する。
Claude 3.7 Sonnetは厳密で一貫した禁制を採用し、GPT-4oはニュアンス付きコンテキストリダイレクトを通じてユーザーインタラクションをナビゲートする。
Gemini 2.5 Flashはしきい値ベースの制限で許容性を示し、Deepseek-V3は不整合な境界強制と実行拒否を示す。
論文 参考訳(メタデータ) (2025-06-05T18:55:37Z) - MIRROR: Modular Internal Processing for Personalized Safety in LLM Dialogue [0.0]
大規模言語モデルは、ユーザ固有の安全コンテキストを無視して、個人のマルチターン対話において有害なレコメンデーションを生成する。
MIRROR(Modular production- focused architecture)は、永続的、バウンドされた内部状態を通じてこれらの障害を防止するモジュール型アーキテクチャである。
論文 参考訳(メタデータ) (2025-05-31T07:17:48Z) - Collective Reasoning Among LLMs: A Framework for Answer Validation Without Ground Truth [0.0]
いくつかの先進的な大規模言語モデルが複雑で博士レベルの確率問題を生成・解き出す新しいアプローチを導入する。
本研究は, 多様なモデル間の合意が, アウトプットの信頼性を如何に示すかに焦点を当てる。
論文 参考訳(メタデータ) (2025-02-28T06:20:52Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation [62.44907105496227]
MindDialは、Mind-of-mindモデリングで位置決め自由形式の応答を生成できる、新しい対話型フレームワークである。
本研究では、話者の信念と話者の聴取者の信念を予測できる明示的なマインドモジュールを導入する。
筆者らのフレームワークは,提案手法と微調整モデルの両方に適用され,共通地盤アライメントとネゴシエーションの両方を含むシナリオで評価される。
論文 参考訳(メタデータ) (2023-06-27T07:24:32Z) - Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics
and Prompt Wording [0.0]
GPT-3を混乱させるものは何か、モデルが特定のセンシティブなトピックにどう反応するか、そしてモデル応答にどのような影響があるのかを解析する。
GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。
モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。
論文 参考訳(メタデータ) (2023-06-09T19:07:31Z) - DynaEval: Unifying Turn and Dialogue Level Evaluation [60.66883575106898]
統合された自動評価フレームワークDynaEvalを提案する。
ターンレベルの評価を行うことができるが、対話全体の品質を公平に考慮することもできる。
実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-06-02T12:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。