論文の概要: Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.16699v1
- Date: Wed, 18 Feb 2026 18:46:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.689999
- Title: Calibrate-Then-Act: Cost-Aware Exploration in LLM Agents
- Title(参考訳): キャリブレート-Then-Act:LLM剤の低コスト探索
- Authors: Wenxuan Ding, Nicholas Tomlin, Greg Durrett,
- Abstract要約: これらのコスト不確実性トレードオフのバランスを明確に説明するために,LSMを誘導できることが示されています。
我々は、情報検索や符号化を含む複数のタスクを、不確実性の下でのシーケンシャルな意思決定問題として定式化する。
情報探索QAと簡易コーディングタスクの結果から,コスト対効果のトレードオフをCTAと明確にすることは,エージェントがより最適な意思決定戦略を発見するのに役立つことが示唆された。
- 参考スコア(独自算出の注目度): 39.79150560622891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly being used for complex problems which are not necessarily resolved in a single response, but require interacting with an environment to acquire information. In these scenarios, LLMs must reason about inherent cost-uncertainty tradeoffs in when to stop exploring and commit to an answer. For instance, on a programming task, an LLM should test a generated code snippet if it is uncertain about the correctness of that code; the cost of writing a test is nonzero, but typically lower than the cost of making a mistake. In this work, we show that we can induce LLMs to explicitly reason about balancing these cost-uncertainty tradeoffs, then perform more optimal environment exploration. We formalize multiple tasks, including information retrieval and coding, as sequential decision-making problems under uncertainty. Each problem has latent environment state that can be reasoned about via a prior which is passed to the LLM agent. We introduce a framework called Calibrate-Then-Act (CTA), where we feed the LLM this additional context to enable it to act more optimally. This improvement is preserved even under RL training of both the baseline and CTA. Our results on information-seeking QA and on a simplified coding task show that making cost-benefit tradeoffs explicit with CTA can help agents discover more optimal decision-making strategies.
- Abstract(参考訳): LLMは、必ずしも単一の応答で解決されるわけではないが、情報を得るために環境と相互作用する必要がある複雑な問題にますます使われてきている。
これらのシナリオでは、LLMは、調査をやめて回答をコミットする時に、固有のコスト不確実性トレードオフを推論する必要があります。
例えば、プログラミングタスクでは、LLMが生成されたコードスニペットを、そのコードの正確性について不確実な場合にテストすべきである。
本研究では,LLMに対して,これらのコスト不確実性トレードオフのバランスを明示的に推論し,より最適な環境探索を行うことができることを示す。
我々は、情報検索や符号化を含む複数のタスクを、不確実性の下でのシーケンシャルな意思決定問題として定式化する。
各問題には、LCMエージェントに渡される前者を介して推論できる潜在環境状態がある。
CTA(Calibrate-Then-Act)と呼ばれるフレームワークを導入し、LLMにこの追加のコンテキストを与え、より最適な動作を可能にする。
この改善はベースラインとCTAの両方のRLトレーニングでも維持される。
情報探索QAと簡易コーディングタスクの結果から,コスト対効果のトレードオフをCTAと明確にすることは,エージェントがより最適な意思決定戦略を発見するのに役立つことが示唆された。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL [62.984693936073974]
大きな言語モデル(LLM)は、質問応答や対話といったタスクに優れています。
交渉や説得のような相互作用を必要とする複雑なタスクは、さらなる長期の推論と計画を必要とする。
目的条件付き値関数を用いて LLM エージェントの推論を導出する手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T16:51:54Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。