論文の概要: OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2509.19973v2
- Date: Thu, 25 Sep 2025 06:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 12:02:33.945817
- Title: OmniScene: Attention-Augmented Multimodal 4D Scene Understanding for Autonomous Driving
- Title(参考訳): OmniScene: 自律運転のための注意増進型マルチモーダル4Dシーン理解
- Authors: Pei Liu, Hongliang Lu, Haichao Liu, Haipeng Liu, Xin Liu, Ruoyu Yao, Shengbo Eben Li, Jun Ma,
- Abstract要約: 人間の視覚は、2次元の観察をエゴセントリックな3次元のシーン理解に変換することができる。
我々は,総合的な4Dシーン理解のための多視点と時間的知覚を統合する,OmniSceneと呼ばれる新しいヒューマンライクなフレームワークを提案する。
我々のアプローチは、認識、予測、計画、視覚的質問応答における新しいベンチマークを確立することで、常に優れた結果を達成する。
- 参考スコア(独自算出の注目度): 21.143038784114154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision is capable of transforming two-dimensional observations into an egocentric three-dimensional scene understanding, which underpins the ability to translate complex scenes and exhibit adaptive behaviors. This capability, however, remains lacking in current autonomous driving systems, where mainstream approaches primarily rely on depth-based 3D reconstruction rather than true scene understanding. To address this limitation, we propose a novel human-like framework called OmniScene. First, we introduce the OmniScene Vision-Language Model (OmniVLM), a vision-language framework that integrates multi-view and temporal perception for holistic 4D scene understanding. Then, harnessing a teacher-student OmniVLM architecture and knowledge distillation, we embed textual representations into 3D instance features for semantic supervision, enriching feature learning, and explicitly capturing human-like attentional semantics. These feature representations are further aligned with human driving behaviors, forming a more human-like perception-understanding-action architecture. In addition, we propose a Hierarchical Fusion Strategy (HFS) to address imbalances in modality contributions during multimodal integration. Our approach adaptively calibrates the relative significance of geometric and semantic features at multiple abstraction levels, enabling the synergistic use of complementary cues from visual and textual modalities. This learnable dynamic fusion enables a more nuanced and effective exploitation of heterogeneous information. We evaluate OmniScene comprehensively on the nuScenes dataset, benchmarking it against over ten state-of-the-art models across various tasks. Our approach consistently achieves superior results, establishing new benchmarks in perception, prediction, planning, and visual question answering.
- Abstract(参考訳): 人間の視覚は2次元の観察をエゴセントリックな3次元のシーン理解に変換することができ、複雑なシーンを翻訳し、適応的な振る舞いを示す能力の基盤となる。
しかし、この能力は現在の自動運転システムに欠けており、メインストリームのアプローチはシーン理解ではなく、主に深度に基づく3D再構築に依存している。
この制限に対処するため、我々はOmniSceneと呼ばれる新しい人間のようなフレームワークを提案する。
まず,OmniScene Vision-Language Model(OmniVLM)を紹介する。
次に,教師が指導するOmniVLMアーキテクチャと知識蒸留を活用して,テキスト表現を3次元のインスタンス機能に組み込むことで,セマンティック・インテリジェンス,特徴学習の充実,ヒューマンライクなアテンショナル・セマンティクスの明確化を実現している。
これらの特徴表現は、人間の運転行動とさらに整合し、より人間らしい認識-理解-行動アーキテクチャを形成する。
さらに,マルチモーダル統合におけるモダリティ寄与の不均衡に対処する階層的融合戦略(HFS)を提案する。
複数の抽象レベルで幾何学的特徴と意味的特徴の相対的重要性を適応的に校正し、視覚的・テキスト的モダリティからの相補的手がかりの相乗的利用を可能にした。
この学習可能な動的融合は、よりニュアンスで効果的な異種情報の利用を可能にする。
我々はOmniSceneをnuScenesデータセットで総合的に評価し、様々なタスクにわたる10以上の最先端モデルと比較した。
我々のアプローチは、認識、予測、計画、視覚的質問応答における新しいベンチマークを確立することで、常に優れた結果を達成する。
関連論文リスト
- Video Perception Models for 3D Scene Synthesis [109.5543506037003]
VIPSceneは、ビデオ生成モデルにおける3D物理世界のエンコードされたコモンセンス知識を利用する新しいフレームワークである。
VIPSceneはビデオ生成、フィードフォワード3D再構成、オープン語彙認識モデルをシームレスに統合し、シーン内の各オブジェクトを意味的かつ幾何学的に分析する。
論文 参考訳(メタデータ) (2025-06-25T16:40:17Z) - Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding [31.40722103849691]
MPECはオープンな3次元セマンティックセグメンテーションのための新しい学習手法である。
3Dエンティティ言語アライメントと、異なるポイントクラウドビュー間でのポイントエンテント一貫性の両方を使用する。
本手法は,オープンな3次元セマンティックセマンティックセグメンテーションのためのScanNetの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-04-28T05:43:14Z) - 3D Vision-Language Gaussian Splatting [29.047044145499036]
マルチモーダルな3Dシーン理解は、ロボット工学、自律運転、バーチャル/拡張現実において重要な応用である。
本稿では,視覚的・意味的な相違点を適切に扱えるソリューションを提案する。
また、既存のビュー間のセマンティック一貫性を改善するために、カメラビューブレンディング技術を採用している。
論文 参考訳(メタデータ) (2024-10-10T03:28:29Z) - DynaVol: Unsupervised Learning for Dynamic Scenes through Object-Centric
Voxelization [67.85434518679382]
幾何学構造と物体中心学習を統一した3次元シーン生成モデルDynaVolを提案する。
鍵となるアイデアは、シーンの3D特性を捉えるために、オブジェクト中心のボキセル化を実行することである。
ボクセルの機能は標準空間の変形関数を通じて時間とともに進化し、グローバルな表現学習の基礎を形成する。
論文 参考訳(メタデータ) (2023-04-30T05:29:28Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。