論文の概要: Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.04284v1
- Date: Wed, 04 Feb 2026 07:26:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.420382
- Title: Agent-Omit: Training Efficient LLM Agents for Adaptive Thought and Observation Omission via Agentic Reinforcement Learning
- Title(参考訳): エージェント・オミット:エージェント強化学習による適応的思考・観察のための効果的なLDMエージェントの訓練
- Authors: Yansong Ning, Jun Fang, Naiqiang Tan, Hao Liu,
- Abstract要約: マルチターンエージェント環境相互作用におけるエージェント思考と観察の管理は、効率を改善するための新たな戦略である。
本稿では,LLMエージェントが冗長な思考や観察を適応的に省略することを可能にする統合トレーニングフレームワークであるAgent-Omitを提案する。
実験の結果, 構築したAgen-Omit-8Bは, 7つのLLMエージェントに匹敵する性能を得ることができた。
- 参考スコア(独自算出の注目度): 15.39565540937229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Managing agent thought and observation during multi-turn agent-environment interactions is an emerging strategy to improve agent efficiency. However, existing studies treat the entire interaction trajectories equally, overlooking the thought necessity and observation utility varies across turns. To this end, we first conduct quantitative investigations into how thought and observation affect agent effectiveness and efficiency. Based on our findings, we propose Agent-Omit, a unified training framework that empowers LLM agents to adaptively omit redundant thoughts and observations. Specifically, we first synthesize a small amount of cold-start data, including both single-turn and multi-turn omission scenarios, to fine-tune the agent for omission behaviors. Furthermore, we introduce an omit-aware agentic reinforcement learning approach, incorporating a dual sampling mechanism and a tailored omission reward to incentivize the agent's adaptive omission capability. Theoretically, we prove that the deviation of our omission policy is upper-bounded by KL-divergence. Experimental results on five agent benchmarks show that our constructed Agent-Omit-8B could obtain performance comparable to seven frontier LLM agent, and achieve the best effectiveness-efficiency trade-off than seven efficient LLM agents methods. Our code and data are available at https://github.com/usail-hkust/Agent-Omit.
- Abstract(参考訳): 多ターンエージェント環境相互作用におけるエージェント思考と観察の管理は,エージェント効率を向上させるための新たな戦略である。
しかし、既存の研究では、すべての相互作用の軌跡を等しく扱い、思考の必要性を見越し、観測ユーティリティはターン毎に異なる。
この目的のために、まず、思考と観察がエージェントの有効性と効率にどのように影響するかを定量的に調査する。
本研究は,LLMエージェントが冗長な思考や観察を適応的に省略することを可能にする統合トレーニングフレームワークであるAgent-Omitを提案する。
具体的には, 1ターンおよび複数ターンの脱離シナリオを含む少量の冷間開始データを合成し, 脱離挙動を微調整する。
さらに, エージェントの適応的消毒能力を高めるために, 二重サンプリング機構と調整された消毒報酬を組み込んだ Omit-Aware Agentic reinforcement learning 手法を導入する。
理論的には, 省略政策の偏差がKL偏差によって上界にあることを証明している。
5つのエージェントベンチマークによる実験結果から, 構築したエージェント-Omit-8Bは, 7つのフロンティアLDMエージェントに匹敵する性能を得ることができ, 7つの効率的なLDMエージェントメソッドよりも高い効率・効率のトレードオフが得られることがわかった。
私たちのコードとデータはhttps://github.com/usail-hkust/Agent-Omit.comで公開されています。
関連論文リスト
- Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization [61.641777037967366]
プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:40:43Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards [80.78748457530718]
自己進化(Self-evolution)は、大規模言語モデル(LLM)ベースのエージェントが事前トレーニング後の能力を継続的に改善できるようにする上で、中心的な研究トピックである。
エージェントがエージェント間相互作用から学習することで自律的に改善できる新しいフレームワークであるCo-Evolving Multi-Agent Systems (CoMAS)を紹介する。
論文 参考訳(メタデータ) (2025-10-09T17:50:26Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Concept Matching with Agent for Out-of-Distribution Detection [19.407364109506904]
本稿では,エージェントパラダイムをアウト・オブ・ディストリビューション(OOD)検出タスクに統合する手法を提案する。
提案手法であるConcept Matching with Agent (CMA) は、CLIPに基づくOOD検出プロセスを強化するために、中性プロンプトをエージェントとして利用する。
実験結果から, ゼロショット法とトレーニング要求法の両方よりもCMAの方が優れた性能を示した。
論文 参考訳(メタデータ) (2024-05-27T02:27:28Z) - Agent-Aware Training for Agent-Agnostic Action Advising in Deep
Reinforcement Learning [37.70609910232786]
深層強化学習(DRL)における非効率サンプリングの課題を軽減するため、専門家教員からの補助的指導を活用するための行動アドバイス
従来のエージェント特異的な行動アドバイス法はエージェント自体の不完全性によって妨げられ、エージェント非依存的なアプローチでは学習エージェントへの適応性が制限される。
本稿では,エージェント・アウェア・trAining yet Agent-Agnostic Action Advising (A7) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-28T14:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。