論文の概要: Improving World Models using Deep Supervision with Linear Probes
- arxiv url: http://arxiv.org/abs/2504.03861v1
- Date: Fri, 04 Apr 2025 18:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:12.795350
- Title: Improving World Models using Deep Supervision with Linear Probes
- Title(参考訳): リニアプローブを用いた深部スーパービジョンによる世界モデルの改善
- Authors: Andrii Zahorodnii,
- Abstract要約: 本稿では,ネットワーク訓練されたエンドツーエンドにおける世界モデル開発を奨励し,次の観測を予測するための深層監視手法について検討する。
本研究では,Flappy Birdゲームに基づく実験環境を用いて,ネットワークの損失関数に線形プローブ成分を加える効果について検討する。
実験により, この監視技術は, トレーニングとテスト性能の両方を改善し, トレーニング安定性を向上し, より容易な世界機能を実現することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Developing effective world models is crucial for creating artificial agents that can reason about and navigate complex environments. In this paper, we investigate a deep supervision technique for encouraging the development of a world model in a network trained end-to-end to predict the next observation. While deep supervision has been widely applied for task-specific learning, our focus is on improving the world models. Using an experimental environment based on the Flappy Bird game, where the agent receives only LIDAR measurements as observations, we explore the effect of adding a linear probe component to the network's loss function. This additional term encourages the network to encode a subset of the true underlying world features into its hidden state. Our experiments demonstrate that this supervision technique improves both training and test performance, enhances training stability, and results in more easily decodable world features -- even for those world features which were not included in the training. Furthermore, we observe a reduced distribution drift in networks trained with the linear probe, particularly during high-variability phases of the game (flying between successive pipe encounters). Including the world features loss component roughly corresponded to doubling the model size, suggesting that the linear probe technique is particularly beneficial in compute-limited settings or when aiming to achieve the best performance with smaller models. These findings contribute to our understanding of how to develop more robust and sophisticated world models in artificial agents, paving the way for further advancements in this field.
- Abstract(参考訳): 効率的な世界モデルを開発することは、複雑な環境を推論し、ナビゲートできる人工エージェントを作成するために不可欠である。
本稿では,ネットワーク訓練されたエンドツーエンドにおける世界モデル開発を奨励し,次の観測を予測するための深層監視手法について検討する。
タスク固有の学習には、深い監督が広く適用されていますが、私たちの焦点は、世界モデルの改善にあります。
エージェントがLIDAR測定のみを観測として受信するFlappy Birdゲームに基づく実験環境を用いて,ネットワークの損失関数に線形プローブ成分を加える効果について検討する。
この追加用語は、ネットワークが真の根底にある世界の機能のサブセットをその隠れ状態にエンコードすることを奨励する。
私たちの実験は、この監督技術がトレーニングとテストのパフォーマンスの両方を改善し、トレーニングの安定性を高め、結果として、トレーニングに含まれていない世界機能に対して、より容易にデオード可能な世界機能を実現します。
さらに,線形プローブを用いてトレーニングしたネットワークにおいて,特に高可変位相(連続するパイプ遭遇間のフライング)において,分布の減少が観察された。
世界の特徴損失成分は、大まかにモデルサイズを2倍にすることに対応しており、線形プローブ技術は計算に制限のある設定や、より小さなモデルで最高の性能を達成するために特に有用であることが示唆されている。
これらの知見は、より堅牢で洗練された世界モデルを人工エージェントで開発する方法の理解に寄与し、この分野のさらなる進歩への道を開いた。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Learning World Models for Unconstrained Goal Navigation [4.549550797148707]
本研究では,世界モデル学習のための目標指向探索アルゴリズムであるMUNを紹介する。
MUNは、リプレイバッファ内の任意のサブゴール状態間の状態遷移をモデル化することができる。
その結果、MUNは世界モデルの信頼性を高め、政策の一般化能力を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-11-03T01:35:06Z) - Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
高次元オープンワールドにおける視覚的強化学習エージェントの訓練は、大きな課題を呈している。
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Hieros: Hierarchical Imagination on Structured State Space Sequence
World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。
我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-08T13:52:40Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。
我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-09-29T15:24:47Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Active World Model Learning with Progress Curiosity [12.077052764803163]
世界モデルは、世界がどのように進化するかの自己監督的な予測モデルである。
本研究では,このような好奇心駆動型アクティブワールドモデル学習システムの設計方法について検討する。
我々は、スケーラブルで効果的な学習進捗に基づく好奇心信号である$gamma$-Progressによって駆動されるAWMLシステムを提案する。
論文 参考訳(メタデータ) (2020-07-15T17:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。