論文の概要: Flexible Empowerment at Reasoning with Extended Best-of-N Sampling
- arxiv url: http://arxiv.org/abs/2604.15614v1
- Date: Fri, 17 Apr 2026 01:41:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.698026
- Title: Flexible Empowerment at Reasoning with Extended Best-of-N Sampling
- Title(参考訳): 拡張ベストオブNサンプリングによる推論におけるフレキシブルエンパワーメント
- Authors: Taisuke Kobayashi,
- Abstract要約: 本稿では、強化学習(RL)における推論動作におけるエンパワーメントを取り入れた新しい手法を提案する。
従来の方法では、探索促進のためのエンパワーメントは、本質的な動機付けされたRLとしてのタスク固有報酬関数のボーナス用語として提供されてきた。
推論における最近の基礎モデルの微調整のために考案されたトリック、いわゆるBest-of-N(BoN)サンプリングは、修正されたポリシーを明示的に学習することなく、暗黙的に取得することができる。
- 参考スコア(独自算出の注目度): 2.944323057176685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel method that incorporates empowerment when reasoning actions in reinforcement learning (RL), thereby achieving the flexibility of exploration-exploitation dilemma (EED). In previous methods, empowerment for promoting exploration has been provided as a bonus term to the task-specific reward function as an intrinsically-motivated RL. However, this approach introduces a delay until the policy that accounts for empowerment is learned, making it difficult to adjust the emphasis on exploration as needed. On the other hand, a trick devised for fine-tuning recent foundation models at reasoning, so-called best-of-N (BoN) sampling, allows for the implicit acquisition of modified policies without explicitly learning them. It is expected that applying this trick to exploration-promoting terms, such as empowerment, will enable more flexible adjustment of EED. Therefore, this paper investigates BoN sampling for empowerment. Furthermore, to adjust the degree of policy modification in a generalizable manner while maintaining computational cost, this paper proposes a novel BoN sampling method extended by Tsalis statistics. Through toy problems, the proposed method's cability to balance EED is verified. In addition, it is demonstrated that the proposed method improves RL performance to solve complex locomotion tasks.
- Abstract(参考訳): 本稿では、強化学習(RL)における推論動作におけるエンパワーメントを取り入れた新しい手法を提案し、探索・探索ジレンマ(EED)の柔軟性を実現する。
従来の方法では、探索促進のためのエンパワーメントは、本質的な動機付けされたRLとしてのタスク固有報酬関数のボーナス用語として提供されてきた。
しかし, この手法は, エンパワーメントを規定する政策が学習されるまでの遅れを招き, 探索の重点を必要に応じて調整することが困難となる。
一方、最近の基礎モデルを微調整する手法である「Best-of-N(BoN)」は、明示的に学習することなく修正ポリシーの暗黙的な取得を可能にする。
エンパワーメントのような探索促進用語にこの手法を適用することで、より柔軟なEED調整が可能になることが期待されている。
そこで本研究では,BoNサンプリングによる高効率化について検討する。
さらに、計算コストを維持しつつ、一般的な方法で政策修正の度合いを調整するために、Tsalis統計によって拡張された新しいBoNサンプリング手法を提案する。
玩具問題を通じて,提案手法の脳波バランス能力を検証する。
さらに,提案手法は複雑な移動課題を解決するため,RL性能を向上させることを実証した。
関連論文リスト
- PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions [0.6299766708197883]
本稿では,ロボット操作における模倣ポリシーのための命令条件改善手法であるPRISMを提案する。
アプローチはImitation Learning (IL)とReinforcement Learning (RL)フレームワークをシームレスなパイプラインにブリッジする。
シミュレーションシナリオにおけるピック・アンド・プレイス・タスクの結果,提案手法は人的フィードバックを伴わずにポリシーを上回ることを示した。
論文 参考訳(メタデータ) (2026-03-05T17:05:08Z) - Evidence-Augmented Policy Optimization with Reward Co-Evolution for Long-Context Reasoning [52.144281362465996]
本稿では,強化学習を長期シナリオに適用するためのEAPO(Evidence-Augmented Policy Optimization)を提案する。
最初にEvidence-Augmented Reasoningパラダイムを確立し、Tree-Structued Evidence Smplingを介して検証する。
次に、報酬モデルがグループ相対エビデンス・リワードを計算する特殊なRLアルゴリズムを導入する。
トレーニングを通して正確な監視を維持するため、適応的リワード・ポリティ共進化機構をさらに取り入れる。
論文 参考訳(メタデータ) (2026-01-15T11:40:57Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention [29.17663968152743]
本稿では,エントロピー誘導型対向サンプリング(EgAS)を提案する。
対応する対向勾配は、対向的なサンプルを生成するための視覚的な入力を攻撃するために使用することができ、ポリシーモデルがRLサンプリング中により大きな対進空間を探索することができる。
論文 参考訳(メタデータ) (2025-12-11T08:27:02Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Efficient Action-Constrained Reinforcement Learning via Acceptance-Rejection Method and Augmented MDPs [13.443196224057658]
行動制約強化学習(ACRL)は、行動制約違反をゼロとする制御ポリシーを学習するための一般的なフレームワークである。
本稿では、標準制約のないRL法をACRLに適用できる汎用的で効率的なフレームワークを提案する。
提案手法は,現状のACRL法よりも高速なトレーニング,制約満足度の向上,アクション推論時間の短縮を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:41:43Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Operator World Models for Reinforcement Learning [37.69110422996011]
Policy Mirror Descent (PMD) は、シーケンシャルな意思決定のための強力で理論的に健全な方法論である。
明示的なアクション値関数が利用できないため、強化学習(Reinforcement Learning, RL)には直接適用できない。
本研究では,条件付き平均埋め込みを用いた環境のワールドモデル学習に基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-28T12:05:47Z) - Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks [59.419152768018506]
最適ポリシーは必ずk-SP制約を満たすことを示す。
本研究では,SP制約に違反するポリシーを完全に排除する代わりに,新たなコスト関数を提案する。
また,MiniGrid,DeepMind Lab,Atari,Fetchを用いた実験の結果,提案手法はPPOを著しく改善することが示された。
論文 参考訳(メタデータ) (2021-07-13T21:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。