論文の概要: Large Language Model Agents Are Not Always Faithful Self-Evolvers
- arxiv url: http://arxiv.org/abs/2601.22436v1
- Date: Fri, 30 Jan 2026 01:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.137935
- Title: Large Language Model Agents Are Not Always Faithful Self-Evolvers
- Title(参考訳): 大規模言語モデルエージェントは、常に忠実な自己進化者ではない
- Authors: Weixiang Zhao, Yingshuo Wang, Yichen Zhang, Yang Deng, Yanyan Zhao, Wanxiang Che, Bing Qin, Ting Liu,
- Abstract要約: 自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することによって継続的に改善される。
本稿では,経験の忠実さ,エージェントの判断が与えられた経験に因果的依存を初めて体系的に調査する。
- 参考スコア(独自算出の注目度): 84.08646612111092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-evolving large language model (LLM) agents continually improve by accumulating and reusing past experience, yet it remains unclear whether they faithfully rely on that experience to guide their behavior. We present the first systematic investigation of experience faithfulness, the causal dependence of an agent's decisions on the experience it is given, in self-evolving LLM agents. Using controlled causal interventions on both raw and condensed forms of experience, we comprehensively evaluate four representative frameworks across 10 LLM backbones and 9 environments. Our analysis uncovers a striking asymmetry: while agents consistently depend on raw experience, they often disregard or misinterpret condensed experience, even when it is the only experience provided. This gap persists across single- and multi-agent configurations and across backbone scales. We trace its underlying causes to three factors: the semantic limitations of condensed content, internal processing biases that suppress experience, and task regimes where pretrained priors already suffice. These findings challenge prevailing assumptions about self-evolving methods and underscore the need for more faithful and reliable approaches to experience integration.
- Abstract(参考訳): 自己進化型大規模言語モデル(LLM)エージェントは、過去の経験を蓄積し再利用することで継続的に改善するが、彼らの行動を導くためにその経験を忠実に頼っているかどうかは不明だ。
自己進化型LSMエージェントにおいて,体験忠実度,エージェントの判断の因果依存性に関する最初の体系的な研究を提示する。
生および凝縮した経験の両形態に対する制御因果介入を用いて,10個のLDMバックボーンと9つの環境にまたがる4つの代表的枠組みを総合的に評価した。
エージェントは生の体験に一貫して依存するが、提供された唯一の経験であるにもかかわらず、凝縮した経験を無視したり誤解したりすることが多い。
このギャップは、シングルエージェントとマルチエージェント構成、バックボーンスケールで持続する。
我々は、その根本原因を、凝縮したコンテンツのセマンティックな制限、経験を抑制する内部処理バイアス、事前訓練済みの事前学習が十分であるタスク体制の3つの要因に遡る。
これらの知見は,自己進化的手法に関する仮定を克服し,より忠実で信頼性の高いアプローチの必要性を浮き彫りにした。
関連論文リスト
- InEx: Hallucination Mitigation via Introspection and Cross-Modal Multi-Agent Collaboration [6.103123418191468]
InExは、幻覚を自律的に緩和するために設計された、トレーニング不要でマルチエージェントのフレームワークである。
InExは既存の手法を一貫して上回り、一般および幻覚ベンチマークで4%-27%向上した。
論文 参考訳(メタデータ) (2025-12-02T17:59:52Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Simulating and Understanding Deceptive Behaviors in Long-Horizon Interactions [18.182800471968132]
大規模言語モデルにおける偽造の探索と評価のための最初のシミュレーションフレームワークを紹介する。
11のフロンティアモデルで実験を行い、クローズドシステムとオープンソースシステムの両方にまたがっています。
詐欺はモデルに依存しており、イベントプレッシャーの増加とともに増加し、常に監督的信頼を損なう。
論文 参考訳(メタデータ) (2025-10-05T02:18:23Z) - Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Experiential Co-Learning of Software-Developing Agents [83.34027623428096]
大規模言語モデル(LLM)は、特にソフトウェア開発において、様々な領域に大きな変化をもたらした。
本稿では,新しいLLM学習フレームワークであるExperiential Co-Learningを紹介する。
実験では、このフレームワークにより、エージェントは、目に見えないソフトウェア開発タスクをより効果的に対処できることを示した。
論文 参考訳(メタデータ) (2023-12-28T13:50:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。