論文の概要: When to ASK: Uncertainty-Gated Language Assistance for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.02226v1
- Date: Thu, 02 Apr 2026 16:19:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.914133
- Title: When to ASK: Uncertainty-Gated Language Assistance for Reinforcement Learning
- Title(参考訳): ASKへ:強化学習のための不確実性学習支援
- Authors: Juarez Monteiro, Nathan Gavenski, Gianlucca Zuin, Adriano Veloso,
- Abstract要約: 強化学習(RL)エージェントは、しばしばアウト・オブ・ディストリビューション(OOD)シナリオと格闘し、高い不確実性とランダムな振る舞いをもたらす。
我々は、より小さな言語モデルと訓練されたRLポリシーを組み合わせた適応安全知識(ASK)を導入し、OODの一般化を再訓練せずに強化する。
- 参考スコア(独自算出の注目度): 0.0839968894426384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) agents often struggle with out-of-distribution (OOD) scenarios, leading to high uncertainty and random behavior. While language models (LMs) contain valuable world knowledge, larger ones incur high computational costs, hindering real-time use, and exhibit limitations in autonomous planning. We introduce Adaptive Safety through Knowledge (ASK), which combines smaller LMs with trained RL policies to enhance OOD generalization without retraining. ASK employs Monte Carlo Dropout to assess uncertainty and queries the LM for action suggestions only when uncertainty exceeds a set threshold. This selective use preserves the efficiency of existing policies while leveraging the language model's reasoning in uncertain situations. In experiments on the FrozenLake environment, ASK shows no improvement in-domain, but demonstrates robust navigation in transfer tasks, achieving a reward of 0.95. Our findings indicate that effective neuro-symbolic integration requires careful orchestration rather than simple combination, highlighting the need for sufficient model scale and effective hybridization mechanisms for successful OOD generalization.
- Abstract(参考訳): 強化学習(RL)エージェントは、しばしばアウト・オブ・ディストリビューション(OOD)シナリオと格闘し、高い不確実性とランダムな振る舞いをもたらす。
言語モデル(LM)には貴重な世界知識が含まれているが、より大きなものは高い計算コストを発生させ、リアルタイムの使用を妨げるとともに、自律的な計画の限界を示す。
我々は,より小さなLMと訓練されたRLポリシーを組み合わせた適応安全知識(ASK)を導入し,OODの一般化を再訓練せずに促進する。
ASKは、不確実性を評価するためにモンテカルロ・ドロップアウトを採用し、不確実性が一定の閾値を超えた場合にのみ、行動提案のためにLMをクエリする。
この選択的利用は、不確実な状況下で言語モデルの推論を活用しながら、既存のポリシーの効率を保っている。
FrozenLake環境での実験では、ASKはドメイン内の改善を示さず、転送タスクの堅牢なナビゲーションを示し、0.95の報酬を得る。
以上の結果から,OODの一般化を成功させるためには,十分なモデルスケールと効果的なハイブリッド化機構が必要であることが示唆された。
関連論文リスト
- Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - BAPO: Boundary-Aware Policy Optimization for Reliable Agentic Search [72.87861928940929]
バウンダリ・アウェア・ポリシー・オプティマイゼーション(BAPO)は、信頼性の高い境界認識を精度を損なうことなく育成する新しいRLフレームワークである。
BAPOは2つの重要な要素を導入する: (i) グループベースの境界対応報酬(i) 推論が限界に達したときのみIDK応答を促進させる) 適応報酬変調器(ii) 早期探索中にこの報酬を戦略的に停止させ、モデルがIDKをショートカットとして利用するのを防ぐ。
論文 参考訳(メタデータ) (2026-01-16T07:06:58Z) - LLM Performance Predictors: Learning When to Escalate in Hybrid Human-AI Moderation Systems [5.7001352660257005]
本稿では,コンテンツモデレーションシステムにおける不確実性定量化の監視のためのフレームワークを提案する。
提案手法は,実世界のヒューマンAIにおいて,コストアウェアの選択的分類を可能にする。
この研究は、不確実性を認識し、スケーラブルで責任あるヒューマンAIモデレーションのための原則化されたフレームワークを確立する。
論文 参考訳(メタデータ) (2026-01-11T17:46:49Z) - Why Uncertainty Estimation Methods Fall Short in RAG: An Axiomatic Analysis [15.553942864736989]
不確実性推定(UE)はモデルの信頼性を定量化し、ユーザが応答信頼性を評価するのに役立つ。
本稿では,現在のUE手法では,検索・拡張生成設定における精度を確実に評価できないことを示す。
本稿では,既存手法の欠陥を識別し,改良手法の開発を導くための公理的枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-12T11:47:42Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - Amortized Safe Active Learning for Real-Time Data Acquisition: Pretrained Neural Policies from Simulated Nonparametric Functions [23.406516455945653]
我々は、高価なオンライン計算を事前訓練されたニューラルポリシーで置き換える、償却された安全なALフレームワークを提案する。
我々のフレームワークはモジュール化されており、安全要件を省略することにより、制約のない、時間に敏感なALタスクに適応することができる。
論文 参考訳(メタデータ) (2025-01-26T09:05:52Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Some Supervision Required: Incorporating Oracle Policies in
Reinforcement Learning via Epistemic Uncertainty Metrics [2.56865487804497]
批判的信頼誘導探索(Critical Confidence Guided Exploration)は、政策の行動を提案として受け取り、この情報を学習スキームに組み込む。
CCGEは, 託宣方針を利用する隣接アルゴリズムに対して, 競合的に動作可能であることを示す。
論文 参考訳(メタデータ) (2022-08-22T18:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。