論文の概要: BeliefShift: Benchmarking Temporal Belief Consistency and Opinion Drift in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.23848v1
- Date: Wed, 25 Mar 2026 02:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.08847
- Title: BeliefShift: Benchmarking Temporal Belief Consistency and Opinion Drift in LLM Agents
- Title(参考訳): 信念シフト: LLM エージェントにおける時間的信念の一貫性と意見ドリフトのベンチマーク
- Authors: Praveen Kumar Myakala, Manan Agrawal, Rahul Manche,
- Abstract要約: BeliefShiftはマルチセッション会話エージェントにおける信念のダイナミクスを評価するために設計されたベンチマークである。
テンポラル・リーフ・一貫性、コントラディション・インテクション、エビデンス・ドリブン・リビジョンの3つのトラックをカバーしている。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, LLaMA-3, Mistral-Largeの7つのモデルについて, ゼロショットおよび検索拡張生成設定で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are increasingly used as long-running conversational agents, yet every major benchmark evaluating their memory treats user information as static facts to be stored and retrieved. That's the wrong model. People change their minds, and over extended interactions, phenomena like opinion drift, over-alignment, and confirmation bias start to matter a lot. BeliefShift introduces a longitudinal benchmark designed specifically to evaluate belief dynamics in multi-session LLM interactions. It covers three tracks: Temporal Belief Consistency, Contradiction Detection, and Evidence-Driven Revision. The dataset includes 2,400 human-annotated multi-session interaction trajectories spanning health, politics, personal values, and product preferences. We evaluate seven models including GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, LLaMA-3, and Mistral-Large under zero-shot and retrieval-augmented generation (RAG) settings. Results reveal a clear trade-off: models that personalize aggressively resist drift poorly, while factually grounded models miss legitimate belief updates. We further introduce four novel evaluation metrics: Belief Revision Accuracy (BRA), Drift Coherence Score (DCS), Contradiction Resolution Rate (CRR), and Evidence Sensitivity Index (ESI).
- Abstract(参考訳): LLMは、長期にわたる会話エージェントとして使われることが多いが、メモリ評価のすべての主要なベンチマークは、ユーザー情報を保存および取得するための静的な事実として扱う。
それは間違ったモデルです。
人は心を変え、対話を延長し、意見のドリフトや過度な調整、確認バイアスといった現象が重要になります。
BeliefShift はマルチセッション LLM 相互作用における信念力学の評価に特化して設計された縦断ベンチマークを導入している。
テンポラル・リーフ・一貫性、コントラディション・インテクション、エビデンス・ドリブン・リビジョンの3つのトラックをカバーしている。
このデータセットには、健康、政治、個人の価値観、製品嗜好にまたがる2,400人の人間によるマルチセッションインタラクショントラジェクトリが含まれている。
GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, LLaMA-3, Mistral-Largeの7つのモデルについて, ゼロショットおよび検索拡張生成(RAG)設定で評価した。
結果から明らかなトレードオフが浮き沈みに積極的に抵抗するモデルと、事実的根拠のあるモデルが正しい信念の更新を見逃しているモデルだ。
さらに、BRA(Belief Revision Accuracy)、DCS(Drift Coherence Score)、CRR(Contradiction Resolution Rate)、ESI(Evidence Sensitivity Index)の4つの新しい評価指標を紹介した。
関連論文リスト
- Dynamic Theory of Mind as a Temporal Memory Problem: Evidence from Large Language Models [0.8666275811953881]
心の理論 (ToM) は社会的認知と人間とAIの相互作用の中心である。
大規模言語モデル(LLM)はToMの理解と表現に役立つ。
我々はDTOM-Trackを導入し、制御されたマルチターン会話における時間的信念推論について検討する。
論文 参考訳(メタデータ) (2026-03-15T22:54:03Z) - Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge [0.0]
本研究は, GPT-4o, GPT-4o-mini, Gemini-2.5-Flash, Claude-Haiku-4.5, Claude-Sonnet-4.5の5モデルに対して, 評価安定性を系統的に評価した。
3つの疑問に対処する: 繰り返し実行されるモデルのスコアがどの程度安定しているか、モデルが異なる入力のスコアがどの程度異なるか、温度がスコアの一貫性にどのように影響するか。
論文 参考訳(メタデータ) (2026-02-04T16:03:08Z) - Incoherent Beliefs & Inconsistent Actions in Large Language Models [33.54139088666698]
現実世界のタスクや環境は、大きな言語モデル(LLM)が一般的に評価される静的データセットとは異なる。
LLMのパフォーマンスの2つの重要な要素について検討する: LLMが彼らの信念を一貫性を持って更新する能力と、彼らが取っている行動がそれらの信念と整合している範囲である。
本結果は,複雑な実世界の環境下でのLCMの挙動を予測することの難しさを浮き彫りにする。
論文 参考訳(メタデータ) (2025-11-17T11:04:00Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Deliberative Dynamics and Value Alignment in LLM Debates [0.0]
大規模言語モデルを用いたマルチターン設定における検討的ダイナミクスと値アライメントについて検討する。
我々は、Redditの"Am I the Asshole"コミュニティから1000のジレンマで注文効果を検証し、検証する。
論文 参考訳(メタデータ) (2025-10-11T04:06:07Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z) - If an LLM Were a Character, Would It Know Its Own Story? Evaluating Lifelong Learning in LLMs [55.8331366739144]
大規模言語モデル(LLM)における生涯学習評価のためのベンチマークであるLIFESTATE-BENCHを紹介する。
我々の事実チェック評価は、パラメトリックと非パラメトリックの両方のアプローチで、モデルの自己認識、エピソードメモリ検索、関係追跡を探索する。
論文 参考訳(メタデータ) (2025-03-30T16:50:57Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。