Fugu-MT 論文翻訳(概要): Self-supervised Hierarchical Visual Reasoning with World Model

論文の概要: Self-supervised Hierarchical Visual Reasoning with World Model

arxiv url: http://arxiv.org/abs/2605.17537v1
Date: Sun, 17 May 2026 16:42:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:48.133905
Title: Self-supervised Hierarchical Visual Reasoning with World Model
Title（参考訳）: 世界モデルを用いた自己教師付き階層型ビジュアル推論
Authors: Yuanfei Xu, Lin Liu, Wengang Zhou, Mingxiao Feng, Houqiang Li,
Abstract要約: ResDreamerは階層的な世界モデルであり、各上位層が下層の残余を再構築するために訓練される。 ResDreamerは,最先端のサンプル効率とパラメータ効率を実現する。このスケーラブルな視覚的展望推論アーキテクチャは、オープンエンドの動的環境において、より有能なオンラインRLエージェントの道を開く。
参考スコア（独自算出の注目度）: 82.64295546475257
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: 3D open-world environments with adversarial opponents remain a core challenge for reinforcement learning due to their vast state spaces. Effective reasoning representations are essential in such settings. While existing self-supervised visual foresight reasoning approaches often suffer from multi-step error accumulation, many recent studies resort to injecting domain-specific knowledge for more stable guidance. Our key insight is that the photorealistic fidelity of visual reasoning representations is secondary; what truly matters is providing informative, task-relevant signals. To this end, we propose ResDreamer, a hierarchical world model in which each higher-level layer is trained to reconstruct the residuals of the layer below. This design enables progressive abstraction of increasingly sophisticated world dynamics and fosters the emergence of richer latent representations. Drawing inspiration from the "Bitter Lesson", ResDreamer trains its reasoning representations in a purely self-supervised manner. The higher-level residual representations are used to modulate lower-level predictions, allowing the world model to scale effectively with only linearly increasing cross-layer communication costs. Experiments show that ResDreamer achieves state-of-the-art sample efficiency and parameter efficiency. This scalable hierarchical visual foresight reasoning architecture paves the way for more capable online RL agents in open-ended, dynamic environments. The code is accessible at \url{https://github.com/XuYuanFei01/ResDreamer}.
Abstract（参考訳）: 敵と敵対する3Dのオープンワールド環境は、その広大な国家空間のために強化学習の核となる課題である。このような設定では、効果的な推論表現が不可欠である。既存の自己監督型視覚前視推論アプローチは、しばしば多段階のエラー蓄積に悩まされるが、近年の多くの研究では、より安定したガイダンスのためにドメイン固有の知識を注入している。私たちの重要な洞察は、視覚的推論表現のフォトリアリスティックな忠実さは二次的であり、真に重要なのは、情報的かつタスク関連的な信号を提供することである。この目的のために,各高層層をトレーニングし,下層の残余を再構築する階層的世界モデルResDreamerを提案する。この設計は、ますます洗練された世界力学の進歩的な抽象化を可能にし、よりリッチな潜在表現の出現を促進する。 Bitter Lesson"からインスピレーションを得たResDreamerは、純粋に自己管理的な方法で推論表現を訓練する。高いレベルの残差表現は、低レベルの予測を変調するために使用され、世界モデルは、階層間通信コストを線形的に増加させるだけで、効果的にスケールすることができる。実験により、ResDreamerは最先端のサンプル効率とパラメータ効率を達成することが示された。このスケーラブルな階層的な視覚的目視推論アーキテクチャは、オープンな動的環境において、より有能なオンラインRLエージェントの道を開く。コードは \url{https://github.com/XuYuanFei01/ResDreamer} でアクセス可能である。

関連論文リスト

ManipArena: Comprehensive Real-world Evaluation of Reasoning-Oriented Generalist Robot Manipulation [66.02142169323521]
Vision-Language-ActionモデルとWorld Modelは最近、汎用ロボットインテリジェンスのための有望なパラダイムとして登場した。既存のベンチマークは、主にシミュレータ中心であり、制御性を提供するが、知覚ノイズによって引き起こされる現実のギャップを捉えることができない。シミュレーションと実世界の実行を橋渡しする標準化された評価フレームワークであるManipArenaを紹介する。
論文参考訳（メタデータ） (2026-03-30T15:06:41Z)
Multimodal Latent Reasoning via Hierarchical Visual Cues Injection [16.779425236020433]
この研究は、頑健な推論は潜在空間内で進化し、シームレスにマルチモーダル信号を統合することを示唆している。表面的な文章の合理性に依存することなく、意図的な「スロー思考」を具現化する新しい枠組みを提案する。視覚知識を取り入れたテストタイムスケーリングは有効であり,階層的な情報の統合は複雑な場面に対するモデルの理解を著しく向上させることを示す。
論文参考訳（メタデータ） (2026-02-05T06:31:12Z)
Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文参考訳（メタデータ） (2026-01-20T11:59:19Z)
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。 DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文参考訳（メタデータ） (2025-07-06T16:14:29Z)
Object-centric proto-symbolic behavioural reasoning from pixels [0.0]
我々は、ピクセルから学習し、その環境を解釈し、制御し、推論する脳に触発されたディープラーニングアーキテクチャを提案する。その結果,エージェントは創発的条件付き行動推論を学習できることがわかった。提案アーキテクチャは、教師なし学習における重要な帰納バイアスとして、接地オブジェクト表現の操作方法を示す。
論文参考訳（メタデータ） (2024-11-26T13:54:24Z)
Hieros: Hierarchical Imagination on Structured State Space Sequence World Models [4.922995343278039]
ヒエロス(Hieros)は、時間的抽象世界表現を学習し、潜在空間における複数の時間スケールでの軌跡を想像する階層的な政策である。我々は,Atari 100kベンチマークにおいて,平均および中央値の正規化人間のスコアにおいて,この手法が技術状況より優れていることを示す。
論文参考訳（メタデータ） (2023-10-08T13:52:40Z)
A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。 Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文参考訳（メタデータ） (2022-10-27T13:24:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。