論文の概要: Improving Language Agents through BREW
- arxiv url: http://arxiv.org/abs/2511.20297v1
- Date: Tue, 25 Nov 2025 13:34:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.479623
- Title: Improving Language Agents through BREW
- Title(参考訳): BREWによる言語エージェントの改善
- Authors: Shashank Kirtania, Param Biyani, Priyanshu Gupta, Yasharth Bajpai, Roshni Iyer, Sumit Gulwani, Gustavo Soares,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、構造化推論、ツールの使用、環境適応を必要とするタスクにますます適用される。
PPOやGRPOのようなモデルウェイト最適化手法の現在の訓練パラダイムは、ロールアウト収束の計算オーバーヘッドが高いため、比較的実用的ではない。
本稿では,下流タスクのエージェント最適化のためのフレームワークであるBREWを紹介する。
- 参考スコア(独自算出の注目度): 7.098644778864677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents are increasingly applied to tasks requiring structured reasoning, tool use, and environmental adaptation, such as data manipulation, multistep planning, and computer-use automation. However, despite their versatility, current training paradigms for model weight optimization methods, like PPO and GRPO, remain relatively impractical with their high computational overhead for rollout convergence. In addition, the resulting agent policies are difficult to interpret, adapt, or incrementally improve. To address this, we investigate creating and refining structured memory of experiential learning of an agent from its environment as an alternative route to agent optimization. We introduce BREW (Bootstrapping expeRientially-learned Environmental knoWledge), a framework for agent optimization for downstream tasks via KB construction and refinement. In our formulation, we introduce an effective method for partitioning agent memory for more efficient retrieval and refinement. BREW uses task graders and behavior rubrics to learn insights while leveraging state-space search for ensuring robustness from the noise and non-specificity in natural language. Empirical results on real world, domain-grounded benchmarks -- OSWorld, $τ^2$Bench, and SpreadsheetBench -- show BREW achieves $10-20\%$ improvement in task precision, $10-15\%$ reduction in API/tool calls leading to faster execution time, all while maintaining computational efficiency on par with base models. Unlike prior work where memory is treated as static context, we establish the KB as a modular and controllable substrate for agent optimization -- an explicit lever for shaping behavior in a transparent, interpretable, and extensible manner.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、構造化推論、ツールの使用、データ操作、マルチステップ計画、コンピュータ利用自動化といった環境適応を必要とするタスクにますます適用されてきている。
しかしながら、PPOやGRPOのようなモデルウェイト最適化手法の現在の訓練パラダイムは、その汎用性にもかかわらず、ロールアウト収束のための計算オーバーヘッドが高いため、比較的実用的ではない。
さらに、結果として生じるエージェントポリシーは、解釈、適応、漸進的に改善することが難しい。
そこで本研究では,エージェント最適化に代わる方法として,エージェントの環境からの経験的学習の構造化メモリの作成と精錬について検討する。
本稿では,BREW(Bootstrapping expeRippingly-learned Environmental knoWledge)を紹介した。
本定式化では,より効率的な検索・精錬のためのエージェントメモリ分割手法を提案する。
BREWはタスクグレーダと行動ルーリックを使用して、自然言語のノイズや非特異性から堅牢性を確保するために、状態空間探索を活用しながら洞察を学習する。
実世界の実証的な結果として、OSWorld、$τ^2$Bench、SpreadsheetBenchといったドメインベースベンチマークは、BREWがタスク精度が10~20\%、API/tool呼び出しが10~15\%向上し、実行時間が短縮され、ベースモデルと同等の計算効率が維持されることを示している。
メモリを静的なコンテキストとして扱う以前の作業とは異なり、KBはエージェント最適化のためのモジュール的で制御可能な基質として確立しています。
関連論文リスト
- Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.829572148850563]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。
エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。
ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文 参考訳(メタデータ) (2025-10-06T09:30:18Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。
タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。
視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2025-06-12T05:25:35Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - CARE: Confidence-rich Autonomous Robot Exploration using Bayesian Kernel
Inference and Optimization [12.32946442160165]
未知・複雑な環境における情報に基づく自律ロボット探査の効率化を検討する。
ベイジアンカーネル推論と最適化に基づく新しい軽量情報ゲイン推定法(BKIO)を提案する。
異なる非構造, 乱雑な環境下での探索性能を損なうことなく, 提案手法の所望の効率性を示す。
論文 参考訳(メタデータ) (2023-09-11T02:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。