論文の概要: SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards
- arxiv url: http://arxiv.org/abs/2602.21158v1
- Date: Tue, 24 Feb 2026 18:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.87437
- Title: SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards
- Title(参考訳): SELAUR: 不確実性認識による自己進化型LDMエージェント
- Authors: Dengjia Zhang, Xiaoou Liu, Lu Cheng, Yaqing Wang, Kenton Murray, Hua Wei,
- Abstract要約: 大規模言語モデル(LLM)は、多段階意思決定エージェントとしてますます多くデプロイされている。
不確実性はモデルの信頼性を反映し、探索が必要な場所を明らかにし、失敗した軌道でも貴重な学習手段を提供する。
報酬設計に不確実性を直接組み込んだ強化学習フレームワークである、不確実性を意識したRewardsによる自己進化型LLMエージェントSELAURを紹介する。
- 参考スコア(独自算出の注目度): 19.764635729816035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as multi-step decision-making agents, where effective reward design is essential for guiding learning. Although recent work explores various forms of reward shaping and step-level credit assignment, a key signal remains largely overlooked: the intrinsic uncertainty of LLMs. Uncertainty reflects model confidence, reveals where exploration is needed, and offers valuable learning cues even in failed trajectories. We introduce SELAUR: Self Evolving LLM Agent via Uncertainty-aware Rewards, a reinforcement learning framework that incorporates uncertainty directly into the reward design. SELAUR integrates entropy-, least-confidence-, and margin-based metrics into a combined token-level uncertainty estimate, providing dense confidence-aligned supervision, and employs a failure-aware reward reshaping mechanism that injects these uncertainty signals into step- and trajectory-level rewards to improve exploration efficiency and learning stability. Experiments on two benchmarks, ALFWorld and WebShop, show that our method consistently improves success rates over strong baselines. Ablation studies further demonstrate how uncertainty signals enhance exploration and robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学習を導く上で効果的な報酬設計が不可欠である多段階意思決定エージェントとして、ますます多くデプロイされている。
最近の研究は、様々な形態の報酬形成とステップレベルのクレジット割り当てを探求しているが、重要なシグナルは、LLMの本質的な不確実性である、ほとんど見落とされ続けている。
不確実性はモデルの信頼性を反映し、探索が必要な場所を明らかにし、失敗した軌道でも貴重な学習手段を提供する。
報酬設計に不確実性を直接組み込んだ強化学習フレームワークである、不確実性を意識したRewardsによる自己進化型LLMエージェントSELAURを紹介する。
SELAURは、エントロピー、最小信頼度、マージンベースのメトリクスを、トークンレベルの不確実性推定の組み合わせに統合し、信頼度に整合した厳密な監視を提供し、これらの不確実性信号をステップレベルの報酬とトラジェクトリレベルの報酬に注入し、探索効率と学習安定性を改善する。
ALFWorldとWebShopの2つのベンチマーク実験により、我々の手法は強いベースラインよりも成功率を継続的に改善することを示した。
アブレーション研究は、不確実性信号が探索と堅牢性をいかに促進するかをさらに示している。
関連論文リスト
- Open the Oyster: Empirical Evaluation and Improvement of Code Reasoning Confidence in LLMs [16.02000925637464]
本稿では,大規模言語モデル(LLM)の信頼性解析と拡張フレームワークを提案する。
本研究は,各タスクにまたがるメインストリームLLMの信頼性に関する総合的な実証的研究を行う。
さらに,信頼度を向上させるために,迅速な戦略最適化や数学的キャリブレーションなどの手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-11-04T02:30:30Z) - Confidence-Based Response Abstinence: Improving LLM Trustworthiness via Activation-Based Uncertainty Estimation [7.3923284353934875]
本稿では,大規模言語モデル(LLM)出力の正しさと密接に一致したRAGシステムにおける信頼度推定手法を提案する。
提案手法は、生のフィードフォワードネットワーク(FFN)を自己回帰信号として活用することにより、事前の不確実性定量化手法を拡張した。
我々の結果は、アクティベーションに基づく信頼度モデリングが、信頼性の高いRAGデプロイメントへのスケーラブルでアーキテクチャを意識したパスを提供することを示した。
論文 参考訳(メタデータ) (2025-10-15T16:55:56Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Towards Reliable LLM-based Robot Planning via Combined Uncertainty Estimation [68.106428321492]
大規模言語モデル (LLM) は高度な推論能力を示し、ロボットが自然言語の命令を理解し、適切な接地で高レベルな計画を生成することができる。
LLMの幻覚は重大な課題であり、しばしば過度に信頼され、不一致または安全でない計画に繋がる。
本研究は, 信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性・信頼性評価を別々に評価するものである。
論文 参考訳(メタデータ) (2025-10-09T10:26:58Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Reward-Robust RLHF in LLMs [25.31456438114974]
大規模言語モデル(LLM)は、より高度なインテリジェンスへと進化を続けている。
報酬モデルに基づく(RMに基づく)アライメント手法への依存は、大きな課題をもたらす。
本稿では,これらの課題に対処することを目的とした報酬損耗型RLHFフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-18T02:35:41Z) - When to Trust LLMs: Aligning Confidence with Response Quality [49.371218210305656]
我々はconfidence-Quality-ORDer保存アライメントアプローチ(CONQORD)を提案する。
品質報酬と秩序保存アライメント報酬機能を統合する。
実験により,CONQORDは信頼性と応答精度のアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-26T09:42:46Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。