Fugu-MT 論文翻訳(概要): Improving Language Agents through BREW

論文の概要: Improving Language Agents through BREW

arxiv url: http://arxiv.org/abs/2511.20297v1
Date: Tue, 25 Nov 2025 13:34:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-26 17:37:04.479623
Title: Improving Language Agents through BREW
Title（参考訳）: BREWによる言語エージェントの改善
Authors: Shashank Kirtania, Param Biyani, Priyanshu Gupta, Yasharth Bajpai, Roshni Iyer, Sumit Gulwani, Gustavo Soares,
Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、構造化推論、ツールの使用、環境適応を必要とするタスクにますます適用される。 PPOやGRPOのようなモデルウェイト最適化手法の現在の訓練パラダイムは、ロールアウト収束の計算オーバーヘッドが高いため、比較的実用的ではない。本稿では,下流タスクのエージェント最適化のためのフレームワークであるBREWを紹介する。
参考スコア（独自算出の注目度）: 7.098644778864677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Model (LLM)-based agents are increasingly applied to tasks requiring structured reasoning, tool use, and environmental adaptation, such as data manipulation, multistep planning, and computer-use automation. However, despite their versatility, current training paradigms for model weight optimization methods, like PPO and GRPO, remain relatively impractical with their high computational overhead for rollout convergence. In addition, the resulting agent policies are difficult to interpret, adapt, or incrementally improve. To address this, we investigate creating and refining structured memory of experiential learning of an agent from its environment as an alternative route to agent optimization. We introduce BREW (Bootstrapping expeRientially-learned Environmental knoWledge), a framework for agent optimization for downstream tasks via KB construction and refinement. In our formulation, we introduce an effective method for partitioning agent memory for more efficient retrieval and refinement. BREW uses task graders and behavior rubrics to learn insights while leveraging state-space search for ensuring robustness from the noise and non-specificity in natural language. Empirical results on real world, domain-grounded benchmarks -- OSWorld, $τ^2$Bench, and SpreadsheetBench -- show BREW achieves $10-20\%$ improvement in task precision, $10-15\%$ reduction in API/tool calls leading to faster execution time, all while maintaining computational efficiency on par with base models. Unlike prior work where memory is treated as static context, we establish the KB as a modular and controllable substrate for agent optimization -- an explicit lever for shaping behavior in a transparent, interpretable, and extensible manner.
Abstract（参考訳）: 大規模言語モデル(LLM)ベースのエージェントは、構造化推論、ツールの使用、データ操作、マルチステップ計画、コンピュータ利用自動化といった環境適応を必要とするタスクにますます適用されてきている。しかしながら、PPOやGRPOのようなモデルウェイト最適化手法の現在の訓練パラダイムは、その汎用性にもかかわらず、ロールアウト収束のための計算オーバーヘッドが高いため、比較的実用的ではない。さらに、結果として生じるエージェントポリシーは、解釈、適応、漸進的に改善することが難しい。そこで本研究では,エージェント最適化に代わる方法として,エージェントの環境からの経験的学習の構造化メモリの作成と精錬について検討する。本稿では,BREW(Bootstrapping expeRippingly-learned Environmental knoWledge)を紹介した。本定式化では,より効率的な検索・精錬のためのエージェントメモリ分割手法を提案する。 BREWはタスクグレーダと行動ルーリックを使用して、自然言語のノイズや非特異性から堅牢性を確保するために、状態空間探索を活用しながら洞察を学習する。実世界の実証的な結果として、OSWorld、$τ^2$Bench、SpreadsheetBenchといったドメインベースベンチマークは、BREWがタスク精度が10～20\%、API/tool呼び出しが10～15\%向上し、実行時間が短縮され、ベースモデルと同等の計算効率が維持されることを示している。メモリを静的なコンテキストとして扱う以前の作業とは異なり、KBはエージェント最適化のためのモジュール的で制御可能な基質として確立しています。

関連論文リスト

VBO-MI: A Fully Gradient-Based Bayesian Optimization Framework Using Variational Mutual Information Estimation [1.0829694003408499]
VBO-MIは多変量相互情報推定の最近の進歩を生かした,完全な勾配に基づくBOフレームワークである。提案手法は,高次元合成関数や複雑な実世界のタスクを含む,多種多様なベンチマークを用いて評価する。
論文参考訳（メタデータ） (2026-01-13T03:07:52Z)
Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios [0.9069311779417014]
本稿では,実体験に基づくエージェントフレームワークを提案する。 Jenius-Agentという名前のエンドツーエンドフレームワークは、3つの重要な最適化と統合されている。実験によると、タスクの精度が20%向上し、トークンコストが削減され、レスポンスレイテンシが低下し、起動障害が発生している。
論文参考訳（メタデータ） (2026-01-05T07:35:12Z)
Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。 ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文参考訳（メタデータ） (2025-10-11T18:11:09Z)
Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models [18.829572148850563]
ACE(Agentic Context Engineering)は、コンテキストを進化するプレイブックとして扱うフレームワークである。エージェントとドメイン固有のベンチマークを通じて、ACEは一貫して強力なベースラインを上回っている。 ACEは、ラベル付けされた監視なしに効果的に適応することができ、代わりに自然な実行フィードバックを活用することができる。
論文参考訳（メタデータ） (2025-10-06T09:30:18Z)
How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。 IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文参考訳（メタデータ） (2025-08-28T15:57:33Z)
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文参考訳（メタデータ） (2025-08-12T09:45:19Z)
TreeLoRA: Efficient Continual Learning via Layer-Wise LoRAs Guided by a Hierarchical Gradient-Similarity Tree [52.44403214958304]
本稿では階層的な勾配の類似性を利用して階層型アダプタを構築する新しい手法であるTreeLoRAを紹介する。タスク類似度推定の計算負担を軽減するために,より低い信頼度境界に基づくアルゴリズムを開発するために,バンド手法を用いる。視覚変換器 (ViTs) と大規模言語モデル (LLMs) の両方を用いた実験により, 提案手法の有効性と有効性を示す。
論文参考訳（メタデータ） (2025-06-12T05:25:35Z)
MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
CARE: Confidence-rich Autonomous Robot Exploration using Bayesian Kernel Inference and Optimization [12.32946442160165]
未知・複雑な環境における情報に基づく自律ロボット探査の効率化を検討する。ベイジアンカーネル推論と最適化に基づく新しい軽量情報ゲイン推定法(BKIO)を提案する。異なる非構造, 乱雑な環境下での探索性能を損なうことなく, 提案手法の所望の効率性を示す。
論文参考訳（メタデータ） (2023-09-11T02:30:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。