論文の概要: Learning Invariant Visual Representations for Planning with Joint-Embedding Predictive World Models
- arxiv url: http://arxiv.org/abs/2602.18639v1
- Date: Fri, 20 Feb 2026 22:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.211005
- Title: Learning Invariant Visual Representations for Planning with Joint-Embedding Predictive World Models
- Title(参考訳): 統合埋め込み予測的世界モデルを用いた計画のための不変視覚表現の学習
- Authors: Leonardo F. Toso, Davit Shadunts, Yunyang Lu, Nihal Sharma, Donglin Zhan, Nam H. Nguyen, James Anderson,
- Abstract要約: 我々は,DINO-WMの10倍の低遅延空間で動作しながら,機能低下に対するロバスト性を改善した。
DINOv2、SimDINOv2、iBOTと組み合わせた場合、事前学習した視覚エンコーダの選択には依存せず、ロバスト性を維持している。
- 参考スコア(独自算出の注目度): 9.714188952666918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models learned from high-dimensional visual observations allow agents to make decisions and plan directly in latent space, avoiding pixel-level reconstruction. However, recent latent predictive architectures (JEPAs), including the DINO world model (DINO-WM), display a degradation in test time robustness due to their sensitivity to "slow features". These include visual variations such as background changes and distractors that are irrelevant to the task being solved. We address this limitation by augmenting the predictive objective with a bisimulation encoder that enforces control-relevant state equivalence, mapping states with similar transition dynamics to nearby latent states while limiting contributions from slow features. We evaluate our model on a simple navigation task under different test-time background changes and visual distractors. Across all benchmarks, our model consistently improves robustness to slow features while operating in a reduced latent space, up to 10x smaller than that of DINO-WM. Moreover, our model is agnostic to the choice of pretrained visual encoder and maintains robustness when paired with DINOv2, SimDINOv2, and iBOT features.
- Abstract(参考訳): 高次元の視覚観測から学んだ世界モデルは、ピクセルレベルの再構成を避けるために、エージェントが決定を下し、遅延空間で直接計画することを可能にする。
しかし、DINOワールドモデル(DINO-WM)を含む最近の潜在予測アーキテクチャ(JEPA)では、"スロー機能"に対する感受性のため、テスト時間の堅牢性が低下している。
これには、バックグラウンドの変更や、解決されるタスクとは無関係なイントラクタなど、視覚的なバリエーションが含まれる。
この制限には、制御関連状態同値を強制するバイシミュレーションエンコーダを用いて予測目標を増大させ、類似の遷移ダイナミクスを持つ状態を近くの潜在状態にマッピングし、遅い特徴からの寄与を制限することで対処する。
我々は,異なるテスト時間背景変化と視覚的障害の下で,簡単なナビゲーションタスクでモデルを評価する。
全てのベンチマークにおいて、我々のモデルは、DINO-WMよりも最大10倍小さい遅延空間で動作しながら、遅くなる機能に対して頑健さを継続的に改善します。
さらに,DINOv2,SimDINOv2,iBOTと組み合わせた場合,事前学習した視覚エンコーダの選択には依存せず,ロバスト性を維持している。
関連論文リスト
- NeXt2Former-CD: Efficient Remote Sensing Change Detection with Modern Vision Architectures [11.733678383805897]
NeXt2Former-CDは、Siamese ConvNeXtエンコーダとDINOv3重み、変形可能な注目ベースの時間融合モジュール、Mask2Formerデコーダを統合するエンドツーエンドフレームワークである。
提案モデルでは,SSMに基づくアプローチに匹敵する推論レイテンシを保ち,高分解能な変更検出タスクに有効であることが示唆された。
論文 参考訳(メタデータ) (2026-02-21T04:51:53Z) - MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection [94.12444452690329]
本稿では,長距離モデリングとグローバル機能検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは、複数の公開ベンチマークで一貫して優れたTAD性能を達成する。
論文 参考訳(メタデータ) (2025-11-22T06:04:29Z) - DINO-VO: A Feature-based Visual Odometry Leveraging a Visual Foundation Model [2.163881720692685]
学習に基づく単眼視覚計測(VO)は、ロボット工学において堅牢性、一般化、効率性の課題を提起する。
DINOv2のような視覚基盤モデルの最近の進歩は、様々な視覚タスクにおける堅牢性と一般化を改善した。
本稿では,DINOv2視覚基盤モデルを利用した機能ベースVOシステムであるDINO-VOについて述べる。
論文 参考訳(メタデータ) (2025-07-17T14:09:34Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Efficient Remote Sensing Change Detection with Change State Space Models [4.698129958118586]
変化状態空間モデルは、バイテンポラル画像間の関連する変化に着目して、変化検出のために特別に設計されている。
提案したモデルは3つのベンチマークデータセットを通じて評価され、計算複雑性のごく一部で、ConvNets、ViTs、Mambaベースのモデルを上回った。
論文 参考訳(メタデータ) (2025-04-15T11:25:10Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Learning Robust Dynamics through Variational Sparse Gating [18.476155786474358]
多くのオブジェクトを持つ環境では、少数のオブジェクトが同時に動いたり相互作用したりしているのが普通です。
本稿では,このスパース相互作用の帰納バイアスを,画素から学習した世界モデルの潜在ダイナミクスに統合する。
論文 参考訳(メタデータ) (2022-10-21T02:56:51Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。