論文の概要: Mitigating Conversational Inertia in Multi-Turn Agents
- arxiv url: http://arxiv.org/abs/2602.03664v2
- Date: Thu, 05 Feb 2026 03:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 14:11:23.872916
- Title: Mitigating Conversational Inertia in Multi-Turn Agents
- Title(参考訳): マルチスレッドエージェントにおける会話慣性の緩和
- Authors: Yang Wan, Zheng Cao, Zhenhao Zhang, Zhengwen Zeng, Shuheng Shen, Changhua Meng, Linchao Zhu,
- Abstract要約: 我々は,従来の応答に対して,モデルが強い対角的注意を示す現象である会話慣性を特定する。
本研究では,高慣性応答よりも低慣性応答を優先するために,モデル選好を校正するコンテキスト選好学習を提案する。
- 参考スコア(独自算出の注目度): 47.35031006899519
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel as few-shot learners when provided with appropriate demonstrations, yet this strength becomes problematic in multiturn agent scenarios, where LLMs erroneously mimic their own previous responses as few-shot examples. Through attention analysis, we identify conversational inertia, a phenomenon where models exhibit strong diagonal attention to previous responses, which is associated with imitation bias that constrains exploration. This reveals a tension when transforming few-shot LLMs into agents: longer context enriches environmental feedback for exploitation, yet also amplifies conversational inertia that undermines exploration. Our key insight is that for identical states, actions generated with longer contexts exhibit stronger inertia than those with shorter contexts, enabling construction of preference pairs without environment rewards. Based on this, we propose Context Preference Learning to calibrate model preferences to favor low-inertia responses over highinertia ones. We further provide context management strategies at inference time to balance exploration and exploitation. Experimental results across eight agentic environments and one deep research scenario validate that our framework reduces conversational inertia and achieves performance improvements.
- Abstract(参考訳): 大規模な言語モデルは、適切な実演を行う際には、少数ショット学習者として優れているが、この強みはマルチターンエージェントのシナリオにおいて問題となる。
注意分析により、モデルが先行応答に対して強い対角的注意を示す現象である会話慣性を同定し、探索を制約する模倣バイアスと関連付ける。
より長いコンテキストは、環境フィードバックを搾取のために強化する一方で、探索を損なう会話慣性も増幅する。
我々の重要な洞察は、同じ状態の場合、より長いコンテキストで生成されたアクションは、短いコンテキストで生成されたアクションよりも強い慣性を示し、環境の報酬のない好みのペアの構築を可能にします。
そこで本研究では,高慣性応答よりも低慣性応答を優先するために,モデル選好の校正を行うコンテキスト選好学習を提案する。
さらに、探索と搾取のバランスをとるために、推論時のコンテキスト管理戦略も提供します。
8つのエージェント環境における実験結果と1つの深い研究シナリオは、我々のフレームワークが会話の慣性を低減し、性能改善を実現することを実証している。
関連論文リスト
- Self-Consolidation for Self-Evolving Agents [51.94826934403236]
大規模言語モデル(LLM)エージェントは静的システムとして機能し、生涯にわたる相互作用を通じて進化する能力に欠ける。
相補的進化機構を導入したLLMエージェントのための新しい自己進化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:16:07Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - DEBATE: A Large-Scale Benchmark for Role-Playing LLM Agents in Multi-Agent, Long-Form Debates [10.609797175227644]
マルチエージェントロールプレイングLLM間の相互作用の信頼性を評価するための,最初の大規模実証的ベンチマークであるDEBATEを紹介する。
我々は,シミュレーション群と真正群との重要な相違点を系統的に評価し,同定した。
論文 参考訳(メタデータ) (2025-10-29T02:21:10Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Positive Experience Reflection for Agents in Interactive Text Environments [9.982616173090264]
Sweet&Sourは、ポジティブな経験と管理された記憶を取り入れた新しいアプローチで、意思決定時にエージェントが利用できるコンテキストを豊かにする。
包括的分析は、クローズドおよびオープンソース両方のLCMにまたがっており、エージェント性能改善におけるSweet&Sourの有効性を実証している。
論文 参考訳(メタデータ) (2024-11-04T16:15:28Z) - Assessing biomedical knowledge robustness in large language models by query-efficient sampling attacks [0.6282171844772422]
大規模言語モデル(LLM)におけるパラメトリックドメイン知識の深化は、現実世界のアプリケーションへの迅速な展開を加速させている。
近年、自然言語処理タスクの逆例として命名されたエンティティが発見され、事前訓練されたLLMの知識の堅牢性に対するそれらの潜在的な影響に関する疑問が提起されている。
バイオメディカル知識のロバスト性を評価するために,パワースケール距離重み付きサンプリングに基づく埋め込み空間攻撃を開発した。
論文 参考訳(メタデータ) (2024-02-16T09:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。