論文の概要: GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control
- arxiv url: http://arxiv.org/abs/2604.07426v1
- Date: Wed, 08 Apr 2026 17:14:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.47494
- Title: GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control
- Title(参考訳): GIRL:情報理論の幻覚制御による生成的イマジネーション強化学習
- Authors: Prakul Sunil Hiremath,
- Abstract要約: GIRL(Generative Imagination Reinforcement Learning)は、この障害モードに2つの重要なコンポーネントで対処する潜在的世界モデルフレームワークである。
GIRLは、DreamerV3に対するタスク間の遅延ロールアウトドリフトを38~61%削減し、リターンを改善し、長距離タスクでの環境相互作用を少なくする。
蒸留前の変種はオーバーヘッドを減らし、フルモデルに対する計算効率を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) improves sample efficiency by optimizing policies inside imagined rollouts, but long-horizon planning degrades when model errors compound and imagined trajectories drift off the training manifold. We introduce GIRL (Generative Imagination Reinforcement Learning), a latent world-model framework that addresses this failure mode with two key components. First, a cross-modal grounding signal derived from a frozen foundation model (DINOv2) anchors the latent transition prior to a semantically consistent embedding space, penalizing inconsistent or implausible predictions. Second, an uncertainty-adaptive trust-region bottleneck interprets the KL regularizer as the Lagrange multiplier of a constrained optimization problem, restricting imagination drift within a learned region calibrated by Expected Information Gain and a Relative Performance Loss signal. We re-derive a value-gap bound using the Performance Difference Lemma and Integral Probability Metrics, yielding a bound that remains informative as the discount factor approaches one and connects the objective to real-environment regret. Experiments across three benchmark suites, including DeepMind Control, Adroit Hand Manipulation, and Meta-World with visual distractors, show that GIRL reduces latent rollout drift by 38 to 61 percent across tasks relative to DreamerV3, improves asymptotic return, and requires fewer environment interactions on long-horizon tasks. GIRL also outperforms TD-MPC2 on sparse-reward and high-contact settings under standard evaluation metrics. A distilled-prior variant reduces inference overhead and improves computational efficiency relative to the full model.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、想定されたロールアウト内のポリシーを最適化することで、サンプル効率を向上させるが、モデルエラーが複雑になり、予測された軌道がトレーニング多様体からドリフトすると、長い水平計画が劣化する。
GIRL(Generative Imagination Reinforcement Learning)は、この障害モードに2つの重要なコンポーネントで対処する潜在的世界モデルフレームワークである。
まず、凍結基礎モデル(DINOv2)から導かれるクロスモーダルグラウンド信号は、意味論的に一貫した埋め込み空間に先行する潜伏遷移をアンロックし、矛盾または不確実な予測をペナルライズする。
第二に、不確実性適応信頼領域ボトルネックは、KL正規化器を制約付き最適化問題のラグランジュ乗算器として解釈し、期待情報ゲインと相対性能損失信号によって校正された学習領域内での想像のドリフトを制限する。
性能差分補題と積分確率尺度を用いて値ギャップ境界を導出し、割引係数が近づき、その目的を実環境の後悔に結びつける。
DeepMind Control、Adroit Hand Manipulation、Meta-Worldなどの3つのベンチマークスイートを対象とした実験では、GIRLはDreamerV3に関連するタスク間の遅延ロールアウトドリフトを38~61%削減し、漸近的リターンを改善し、長期的タスクでの環境インタラクションを少なくすることを示した。
GIRLはまた、標準評価基準の下でスパース・リワードおよび高接触設定においてTD-MPC2より優れている。
蒸留前の変種は、推論オーバーヘッドを減らし、フルモデルに対する計算効率を向上させる。
関連論文リスト
- Continual Visual Anomaly Detection on the Edge: Benchmark and Efficient Solutions [11.262875405161417]
視覚異常検出(VAD)は、産業検査や医療を含む多くのアプリケーションにとって重要な課題である。
本ベンチマークは, 協調効率および適応性制約下での最適バックボーン法とVOD法の選択に関するガイダンスを提供する。
本稿では,3つの軽量バックボーンアーキテクチャにまたがる7つのVADモデルの評価を行い,連続学習シナリオにおけるエッジ上でのVADの総合ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-07T20:19:34Z) - ConsistentRFT: Reducing Visual Hallucinations in Flow-based Reinforcement Fine-Tuning [85.20505958752928]
フローベースモデル上での強化ファインチューニング(RFT)は、優先順位調整に不可欠である。
RFTは、過度に最適化された詳細や意味的なミスアライメントのような視覚幻覚をしばしば導入する。
この研究は、なぜ視覚幻覚が生じるのか、どのようにそれらを減らすのかを予備的に探求する。
論文 参考訳(メタデータ) (2026-02-03T11:49:46Z) - Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Harnessing Optimization Dynamics for Curvature-Informed Model Merging [17.42364575754576]
教師付き微調整では、複数の機能ベースのSFTチェックポイントを1つのモデルに統合する必要がある。
我々は、最適化トラジェクトリ・アウェア(OTA)マージと高速フィッシャーグラフティング(FFG)を導入する。
OTA+FFGは、強力な重量空間ベースラインよりもマージモデルの品質を改善し、負の転送を低減し、スパーシティレベルにわたって堅牢である。
論文 参考訳(メタデータ) (2025-09-14T08:59:53Z) - WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。
WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。
私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-07-23T16:02:06Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - Decoupled and Interactive Regression Modeling for High-performance One-stage 3D Object Detection [8.531052087985097]
回帰タスクにおけるバウンディングボックスモデリングの不十分さは、1段階の3Dオブジェクト検出の性能を制約する。
一段階検出のための疎結合・インタラクティブ回帰モデリング(DIRM)を提案する。
論文 参考訳(メタデータ) (2024-09-01T10:47:22Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。