論文の概要: Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning
- arxiv url: http://arxiv.org/abs/2601.03641v1
- Date: Wed, 07 Jan 2026 06:43:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.304283
- Title: Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning
- Title(参考訳): Agent-Dice: エージェント連続学習のための幾何学的合意による知識更新の遠ざかる
- Authors: Zheng Wu, Xingyu Lou, Xinbei Ma, Yansi Li, Weiwen Liu, Weinan Zhang, Jun Wang, Zhuosheng Zhang,
- Abstract要約: Agent-Diceは指向性コンセンサス評価に基づくパラメータ融合フレームワークである。
GUIエージェントとツール使用エージェントドメインの実験は、Agent-Diceが優れた連続学習性能を示すことを示した。
- 参考スコア(独自算出の注目度): 41.461840578204956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents significantly extend the utility of LLMs by interacting with dynamic environments. However, enabling agents to continually learn new tasks without catastrophic forgetting remains a critical challenge, known as the stability-plasticity dilemma. In this work, we argue that this dilemma fundamentally arises from the failure to explicitly distinguish between common knowledge shared across tasks and conflicting knowledge introduced by task-specific interference. To address this, we propose Agent-Dice, a parameter fusion framework based on directional consensus evaluation. Concretely, Agent-Dice disentangles knowledge updates through a two-stage process: geometric consensus filtering to prune conflicting gradients, and curvature-based importance weighting to amplify shared semantics. We provide a rigorous theoretical analysis that establishes the validity of the proposed fusion scheme and offers insight into the origins of the stability-plasticity dilemma. Extensive experiments on GUI agents and tool-use agent domains demonstrate that Agent-Dice exhibits outstanding continual learning performance with minimal computational overhead and parameter updates.
- Abstract(参考訳): LLM(Large Language Model)ベースのエージェントは、動的環境と対話することでLLMの有用性を大幅に拡張する。
しかし、破滅的な忘れをすることなく、エージェントが新しいタスクを継続的に学習できるようにすることは、安定性・塑性ジレンマとして知られる重要な課題である。
本研究では、このジレンマは、タスク間で共有される共通知識と、タスク固有の干渉によってもたらされる知識の矛盾を明確に区別できないことに起因すると論じる。
そこで本研究では,指向性コンセンサス評価に基づくパラメータ融合フレームワークであるAgent-Diceを提案する。
具体的には、Agent-Diceは知識の更新を2段階のプロセスで切り離し、幾何学的コンセンサスフィルタリングで矛盾する勾配を抽出し、共有セマンティクスを増幅するために曲率に基づく重要度重み付けを行う。
提案手法の有効性を立証し,安定性・塑性ジレンマの起源を考察する厳密な理論解析を行う。
GUIエージェントとツール使用エージェントドメインに関する大規模な実験は、Agent-Diceが計算オーバーヘッドとパラメータの更新を最小限に抑えながら、優れた連続学習性能を示すことを示した。
関連論文リスト
- Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions [0.0]
エージェントドリフト(エージェントドリフト)は、エージェントの挙動、決定品質、およびエージェント間コヒーレンスを、拡張された相互作用シーケンス上で段階的に劣化させる。
12次元にわたるドリフトを定量化するための新しい合成計量であるエージェント安定度指数(ASI)を導入する。
未確認エージェントドリフトがタスク完了精度を大幅に低下させ、人間の介入要求が増大することを示す。
論文 参考訳(メタデータ) (2026-01-07T18:37:26Z) - The Social Laboratory: A Psychometric Framework for Multi-Agent LLM Evaluation [0.16921396880325779]
マルチエージェント討論を制御された「社会実験室」として活用する新しい評価枠組みを導入する。
特に認知活動において、割り当てられたペルソナが安定した、測定可能な心理測定プロファイルを誘導することを示す。
この研究は、動的、心理学的に基礎付けられた評価プロトコルの新しいクラスの青写真を提供する。
論文 参考訳(メタデータ) (2025-10-01T07:10:28Z) - MAGIC-MASK: Multi-Agent Guided Inter-Agent Collaboration with Mask-Based Explainability for Reinforcement Learning [0.0]
本稿では,マルチエージェント強化学習への摂動に基づく説明を拡張した数学的基盤を持つMAGIC-MASKを提案する。
提案手法は, 近似ポリシ最適化, 適応型エプシロン・グレーディ探索, および軽量なエージェント間協調を統合した。
この共同作業により、各エージェントは給与誘導マスキングを行い、報酬に基づく洞察を仲間と共有し、臨界状態発見に必要な時間を短縮することができる。
論文 参考訳(メタデータ) (2025-09-30T20:53:28Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - A Framework for Analyzing Abnormal Emergence in Service Ecosystems Through LLM-based Agent Intention Mining [18.607974352313832]
本稿では,マルチエージェント・インテンション(EAMI)に基づく創発分析の枠組みを紹介する。
EAMIは動的かつ解釈可能な出現分析を可能にする。
複合オンラインオフライン(O2O)サービスシステムにおけるEAMIを検証する実験。
論文 参考訳(メタデータ) (2025-07-21T16:26:49Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。