論文の概要: Cross-View World Models
- arxiv url: http://arxiv.org/abs/2602.07277v1
- Date: Sat, 07 Feb 2026 00:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.545982
- Title: Cross-View World Models
- Title(参考訳): クロスビュー世界モデル
- Authors: Rishabh Sharma, Gijs Hogervorst, Wayne E. Mackey, David J. Heeger, Stefano Martiniani,
- Abstract要約: 本稿では,クロスビュー・ワールド・モデル (XVWM) を紹介する。
我々は、Aimlabsから同期マルチビューゲームプレイデータをトレーニングする。
この結果から,複数視点の整合性は空間的接地表現に強い学習信号を与えることがわかった。
- 参考スコア(独自算出の注目度): 3.7896239978609434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models enable agents to plan by imagining future states, but existing approaches operate from a single viewpoint, typically egocentric, even when other perspectives would make planning easier; navigation, for instance, benefits from a bird's-eye view. We introduce Cross-View World Models (XVWM), trained with a cross-view prediction objective: given a sequence of frames from one viewpoint, predict the future state from the same or a different viewpoint after an action is taken. Enforcing cross-view consistency acts as geometric regularization: because the input and output views may share little or no visual overlap, to predict across viewpoints, the model must learn view-invariant representations of the environment's 3D structure. We train on synchronized multi-view gameplay data from Aimlabs, an aim-training platform providing precisely aligned multi-camera recordings with high-frequency action labels. The resulting model gives agents parallel imagination streams across viewpoints, enabling planning in whichever frame of reference best suits the task while executing from the egocentric view. Our results show that multi-view consistency provides a strong learning signal for spatially grounded representations. Finally, predicting the consequences of one's actions from another viewpoint may offer a foundation for perspective-taking in multi-agent settings.
- Abstract(参考訳): 世界モデルでは、エージェントは将来の状態を想像することで計画できるが、既存のアプローチは単一の視点(通常は自我中心)で、他の視点が計画を簡単にする。
我々は,クロスビュー・ワールド・モデル (XVWM) を導入し,一視点からのフレーム列を与えられた場合,同一あるいは異なる視点からの将来の状態を予測する。
インプットとアウトプットのビューは視覚的なオーバーラップをほとんど、あるいは全く共有しないため、ビュー全体を予測するため、モデルは環境の3D構造のビュー不変表現を学習する必要がある。
Aimlabsは、高精度なマルチカメラ記録と高周波アクションラベルを提供する目標学習プラットフォームである。
結果として得られたモデルにより、エージェントが視点をまたいだ並行想像ストリームが提供され、任意の参照フレームがエゴセントリックな視点から実行しながら、どのタスクに最も適しているかを計画できる。
この結果から,複数視点の整合性は空間的接地表現に強い学習信号を与えることがわかった。
最後に、別の視点から行動の結果を予測することは、マルチエージェント設定における視点を取るための基盤を提供するかもしれない。
関連論文リスト
- Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - Attention-Aware Multi-View Pedestrian Tracking [21.393389135740712]
最近の多視点歩行者検出モデルは、早期統合戦略の可能性を強調している。
この戦略は、検出と追跡の両方のパフォーマンスを改善することが示されている。
本稿では,多視点歩行者追跡シナリオに注意機構を組み込んだ新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-04-03T21:53:08Z) - AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction [69.65671384868344]
拡散モデルに基づく新しい次世代予測パラダイムAR-1-to-3を提案する。
提案手法は,生成したビューと入力ビューとの整合性を大幅に改善し,高忠実度3Dアセットを生成する。
論文 参考訳(メタデータ) (2025-03-17T08:39:10Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - KINet: Unsupervised Forward Models for Robotic Pushing Manipulation [8.572983995175909]
キーポイント表現に基づいたオブジェクトインタラクションを推論する、教師なしフレームワークKINetを紹介します。
我々のモデルは、オブジェクトとキーポイント座標を関連付けることを学び、システムのグラフ表現を発見する。
キーポイント空間における物理的推論を学習することにより、我々のモデルは、異なる数のオブジェクトを持つシナリオに自動的に一般化する。
論文 参考訳(メタデータ) (2022-02-18T03:32:08Z) - Weak Multi-View Supervision for Surface Mapping Estimation [0.9367260794056769]
密接なアノテーションを使わずにカテゴリ別表面マッピングを学習する,弱監督型マルチビュー学習手法を提案する。
人間の顔、車、飛行機といった一般的なカテゴリの基盤となる表面形状を、それらのカテゴリの例から学習する。
論文 参考訳(メタデータ) (2021-05-04T09:46:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。