論文の概要: OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents
- arxiv url: http://arxiv.org/abs/2605.11169v1
- Date: Mon, 11 May 2026 19:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.385747
- Title: OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents
- Title(参考訳): OLIVIA: LLMリアクトエージェントにおける推論時行動適応による意思決定のためのオンライン学習
- Authors: Sheldon Yu, Junda Wu, Xintong Li, Nikki Lijing Kuang, Sizhe Zhou, Tong Yu, Jiawei Han, Jingbo Shang, Julian McAuley,
- Abstract要約: 大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
LLMエージェントの既存の推論時間適応法は、主にプロンプトや検索に依存している。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
- 参考スコア(独自算出の注目度): 74.20327254615854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents interleave reasoning, action selection, and observation to solve sequential decision-making tasks. In deployed settings where agents repeatedly handle related multi-step tasks, small action-selection errors can accumulate into wasted tool calls, latency, and reduced reliability. Despite this need for deployment-time improvement, existing inference-time adaptation methods for LLM agents mainly rely on prompting or retrieval, which influence behavior indirectly through context manipulation. For ReAct-style agents, such approaches do not expose an explicit decision layer that can score candidate actions, represent uncertainty, or be updated online from action-level feedback. As a result, they provide limited support for trackable, fine-grained, and uncertainty-aware adaptation during deployment. We propose OLIVIA, an inference-time action adaptation framework for ReAct-style agents. OLIVIA models the LLM's final action-selection layer as a contextual linear bandit over candidate actions, with frozen hidden states as decision contexts. This choice is particularly suitable for deployment because it adapts behavior directly at the action-selection interface, preserves the underlying reasoning process, and provides explicit uncertainty estimates and lightweight online updates from action-level feedback. With upper-confidence-bound exploration, OLIVIA improves the policy sample-efficiently with minimal computational overhead. We instantiate OLIVIA on four benchmarks and show that it consistently improves task performance over static ReAct and prompt-based inference-time baselines. Our results suggest that explicit online decision layers provide an effective alternative to purely prompt- or retrieval-based adaptation for LLM agents during deployment.
- Abstract(参考訳): 大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
エージェントが関連するマルチステップタスクを繰り返し処理するデプロイ設定では、小さなアクション選択エラーが無駄なツールコールやレイテンシ、信頼性の低下に蓄積される。
デプロイメント時間の改善の必要性にもかかわらず、既存のLLMエージェントの推論時適応手法は主に、コンテキスト操作を通じて間接的に振る舞いに影響を与えるプロンプトや検索に依存している。
ReActスタイルのエージェントでは、このようなアプローチは明確な決定層を公開していない。
結果として、デプロイメント中の追跡可能、きめ細かな、不確実性を認識した適応に対して、限定的なサポートを提供する。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
OLIVIAは、LLMの最終アクション選択層を、決定コンテキストとして凍結された隠れ状態を持つ、候補アクションに対するコンテキスト線形帯域としてモデル化する。
この選択は、アクション選択インターフェースで振舞いを直接適応し、基礎となる推論プロセスを保持し、明確な不確実性推定とアクションレベルのフィードバックからの軽量なオンライン更新を提供するため、特にデプロイメントに適している。
OLIVIAは、高信頼な探索により、最小の計算オーバーヘッドで効率よく政策を改良する。
4つのベンチマークでOLIVIAをインスタンス化し、静的ReActおよびプロンプトベースの推論時間ベースラインよりもタスクパフォーマンスを継続的に改善することを示す。
以上の結果から, 明示的なオンライン決定層は, LLMエージェントに対する純粋にプロンプトまたは検索に基づく適応の代替となることが示唆された。
関連論文リスト
- Learning to Explore: Scaling Agentic Reasoning via Exploration-Aware Policy Optimization [14.566152113959555]
既存の手法の鍵となる制限は、通常、未分化の探査戦略を採用することである。
本研究では,LLMエージェントが不確実性が高い場合にのみ適応的に探索できる探索対応強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-09T14:44:18Z) - When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。
VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。
セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文 参考訳(メタデータ) (2026-02-25T23:23:22Z) - Who Sees What? Structured Thought-Action Sequences for Epistemic Reasoning in LLMs [1.090218572228214]
本研究では,LLMをベースとしたReActフレームワークの性能向上のための構造化例の可能性について検討した。
本稿では、最適ゴールパス(G型)、情報ノードパス(E型)、ステップバイステップの最適決定シーケンス(L型)の3つのカテゴリの例を生成する、構造化された解処理パイプラインを提案する。
L型の例は、明確化要求と全体的なアクションステップをわずかに削減するが、一貫性のある改善は得られない。
論文 参考訳(メタデータ) (2025-08-20T09:36:53Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Can Prompt Difficulty be Online Predicted for Accelerating RL Finetuning of Reasoning Models? [65.18157595903124]
本研究では任意のプロンプトの反復的近似評価について検討する。
Model Predictive Prompt Selection (MoPPS)はベイズにおけるリスク予測フレームワークである。
MoPPSは迅速な困難を確実に予測し、ロールアウトを大幅に削減したトレーニングを加速する。
論文 参考訳(メタデータ) (2025-07-07T03:20:52Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。