論文の概要: ReDAct: Uncertainty-Aware Deferral for LLM Agents
- arxiv url: http://arxiv.org/abs/2604.07036v1
- Date: Wed, 08 Apr 2026 12:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.535225
- Title: ReDAct: Uncertainty-Aware Deferral for LLM Agents
- Title(参考訳): LLMエージェントのための不確かさを意識したデフェラル
- Authors: Dzianis Piatrashyn, Nikita Kotelevskii, Kirill Grishchenkov, Nikita Glazkov, Ivan Nasonov, Ilya Makarov, Timothy Baldwin, Preslav Nakov, Roman Vashurin, Maxim Panov,
- Abstract要約: 本稿では、逐次意思決定問題を解決するためにReDAct(Reason-Defer-Act)を提案する。
ReDActでは、エージェントは2つのLSMを備えている: デフォルトで使用される小型で安価なモデルと、大きくて信頼性が高くて高価なモデルである。
提案手法では,大モデルに対する決定の約15%のみを遅延させることで,推論コストを大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 61.507376922278894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, LLM-based agents have become increasingly popular across many applications, including complex sequential decision-making problems. However, they inherit the tendency of LLMs to hallucinate, leading to incorrect decisions. In sequential settings, even a single mistake can irreversibly degrade the trajectory, making hallucinations an even bigger problem. Although larger LLMs hallucinate less, they incur a significantly higher per-token cost. In this paper, we address this tradeoff by proposing ReDAct (Reason-Defer-Act). In ReDAct, an agent is equipped with two LLMs: a small, cheap model used by default, and a large, more reliable but expensive model. When the predictive uncertainty of the small model exceeds a calibrated threshold, the decision is deferred to the large model. We evaluate our approach in text-based embodied environments such as ALFWorld and MiniGrid and show that deferring only about 15% of decisions to the large model can match the quality of using it exclusively, while significantly reducing inference costs.
- Abstract(参考訳): 近年、LSMベースのエージェントは複雑なシーケンシャルな意思決定問題を含む多くのアプリケーションで人気が高まっている。
しかし、彼らはLLMの幻覚の傾向を継承し、誤った決定を下す。
連続的な設定では、1つの誤りでさえ軌道を不可逆的に劣化させ、幻覚はさらに大きな問題となる。
より大きなLSMは幻覚を減少させるが、トーケン当たりのコストは著しく高い。
本稿では,ReDAct(Reason-Defer-Act)を提案することによって,このトレードオフに対処する。
ReDActでは、エージェントは2つのLSMを備えている: デフォルトで使用される小型で安価なモデルと、大きくて信頼性が高くて高価なモデルである。
小モデルの予測不確かさが校正しきい値を超えると、決定は大モデルに延期される。
ALFWorldやMiniGridといったテキストベースのエンボディ環境でのアプローチを評価し,大モデルへの決定の約15%は,その使用品質に比例し,推論コストを大幅に削減できることを示した。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Cost-Saving LLM Cascades with Early Abstention [1.3108652488669732]
LLMカスケードにおける「早期禁忌」の利点について検討した。
6つのベンチマークで,テスト全体の損失を平均2.2%削減できることがわかった。
これらの利得は、より効果的な禁制の使用、総禁制率の4.1%の平均的な増加、コストの13.0%の削減、エラー率の5.0%の削減によって生じる。
論文 参考訳(メタデータ) (2025-02-13T08:08:39Z) - Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection [80.63946798650653]
決定は、より優れた性能を持つ大型LCMを使うか、より少ないコストで使用するかに重点を置いている。
我々は,LLMの世代間不確実性のみを意思決定基準として,より単純な解を提案する。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-03T14:38:59Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。