論文の概要: The Surprising Difficulty of Search in Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.21306v1
- Date: Thu, 29 Jan 2026 05:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.609119
- Title: The Surprising Difficulty of Search in Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習における探索の難しさ
- Authors: Wei-Di Chang, Mikael Henaff, Brandon Amos, Gregory Dudek, Scott Fujimoto,
- Abstract要約: モデルが精度が高い場合でも,探索が性能に悪影響を及ぼすことを示す。
我々は,有効な探索と最先端性能を実現するための重要な手法を同定する。
- 参考スコア(独自算出の注目度): 22.08928259862334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates search in model-based reinforcement learning (RL). Conventional wisdom holds that long-term predictions and compounding errors are the primary obstacles for model-based RL. We challenge this view, showing that search is not a plug-and-play replacement for a learned policy. Surprisingly, we find that search can harm performance even when the model is highly accurate. Instead, we show that mitigating distribution shift matters more than improving model or value function accuracy. Building on this insight, we identify key techniques for enabling effective search, achieving state-of-the-art performance across multiple popular benchmark domains.
- Abstract(参考訳): 本稿ではモデルベース強化学習(RL)における探索について検討する。
従来の知恵では、長期予測と複合エラーがモデルベースRLの主要な障害である。
我々はこの見解に挑戦し、検索が学習ポリシーのプラグアンドプレイ代替ではないことを示した。
驚くべきことに,モデルが非常に精度が高い場合でも,探索が性能に悪影響を及ぼすことが判明した。
代わりに、分布の緩和はモデルや値関数の精度を改善することよりも重要であることを示す。
この知見に基づいて、複数の人気のあるベンチマークドメインにまたがって効率的な検索を可能にし、最先端のパフォーマンスを達成するための重要な手法を同定する。
関連論文リスト
- VAR: Visual Attention Reasoning via Structured Search and Backtracking [49.427842994857635]
構造化された検索としてグラウンドド推論をリキャストするフレームワークであるVisual Attention Reasoningを紹介する。
VARは、推論プロセスを2つの重要な段階に分解する。
我々は、我々の7BモデルであるVAR-7Bが、幻覚と安全性のベンチマークの包括的なスイートに新しい最先端を設定していることを示します。
論文 参考訳(メタデータ) (2025-10-21T13:18:44Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - Offline Learning and Forgetting for Reasoning with Large Language Models [28.268926613608826]
本稿では,未完成かつ失敗に終わった推論経路を微調整することで,検索機能をモデルに直接統合する効果的な手法を提案する。
挑戦的なGame-of-24およびCountdown算術パズルの実験は、CoT生成データをオフラインの微調整のために検索生成データに置き換えることで、推論時検索ベースラインよりも約23%の成功率を向上させることを示した。
私たちの学習と忘れは、教師付き微調整と嗜好に基づく方法の両方で一貫して優れています。
論文 参考訳(メタデータ) (2025-04-15T16:30:02Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。