論文の概要: EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining
- arxiv url: http://arxiv.org/abs/2503.15470v1
- Date: Wed, 19 Mar 2025 17:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:26.454516
- Title: EgoDTM: Towards 3D-Aware Egocentric Video-Language Pretraining
- Title(参考訳): EgoDTM:3D対応のEgocentric Video-Language Pretrainingを目指す
- Authors: Boshen Xu, Yuting Mei, Xinbi Liu, Sipeng Zheng, Qin Jin,
- Abstract要約: EgoDTMは、Egocentric Depth- and Text-aware Modelである。
大規模な3D対応ビデオプレトレーニングと、ビデオテキストのコントラスト学習を通じて、共同でトレーニングを行う。
EgoDTMは軽量な3D認識デコーダを内蔵し、擬似深度マップから3D認識を効率的に学習する。
- 参考スコア(独自算出の注目度): 45.20518890664213
- License:
- Abstract: Egocentric video-language pretraining has significantly advanced video representation learning. Humans perceive and interact with a fully 3D world, developing spatial awareness that extends beyond text-based understanding. However, most previous works learn from 1D text or 2D visual cues, such as bounding boxes, which inherently lack 3D understanding. To bridge this gap, we introduce EgoDTM, an Egocentric Depth- and Text-aware Model, jointly trained through large-scale 3D-aware video pretraining and video-text contrastive learning. EgoDTM incorporates a lightweight 3D-aware decoder to efficiently learn 3D-awareness from pseudo depth maps generated by depth estimation models. To further facilitate 3D-aware video pretraining, we enrich the original brief captions with hand-object visual cues by organically combining several foundation models. Extensive experiments demonstrate EgoDTM's superior performance across diverse downstream tasks, highlighting its superior 3D-aware visual understanding. Our code will be released at https://github.com/xuboshen/EgoDTM.
- Abstract(参考訳): エゴセントリックなビデオ言語事前学習は、ビデオ表現学習を著しく進歩させた。
人間は、完全に3Dの世界を知覚し、相互作用し、テキストベースの理解を超えた空間的認識を発達させる。
しかし、これまでのほとんどの研究は、1Dテキストや2Dビジュアルキューから学習し、バウンディングボックスは本質的に3Dの理解を欠いている。
このギャップを埋めるために、大規模な3D対応ビデオ事前学習とビデオテキストコントラスト学習によって共同で訓練されたEgocentric Depth and Text-aware ModelであるEgoDTMを紹介する。
EgoDTMには軽量な3D認識デコーダが組み込まれており、深度推定モデルにより生成された擬似深度マップから3D認識を効率的に学習する。
さらに,3次元映像の事前学習を容易にするために,複数の基礎モデルを有機的に組み合わせることで,手動の視覚的手がかりでオリジナルの短いキャプションを充実させる。
大規模な実験は、EgoDTMの様々な下流タスクにおける優れたパフォーマンスを示し、その優れた3D認識視覚的理解を強調している。
私たちのコードはhttps://github.com/xuboshen/EgoDTMでリリースされます。
関連論文リスト
- LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding,
Reasoning, and Planning [42.61001274381612]
LL3DA(Large Language 3D Assistant)は、ポイントクラウドを直接入力とし、テキストインストラクションとビジュアルプロンプトの両方に応答する。
実験の結果,LL3DAは3Dキャプションと3D質問応答の両方において,様々な3次元視覚言語モデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:00:23Z) - SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction [77.15924044466976]
本稿では,ビデオシーケンスのみを用いて,自己指導型3D習熟学習手法を提案する。
まず、画像を3D空間(例えば鳥の目視)に変換し、シーンの3D表現を得る。
そして、前と将来のフレームの2D画像を自己超越信号として描画し、3D表現を学習する。
論文 参考訳(メタデータ) (2023-11-21T17:59:14Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Chat-3D: Data-efficiently Tuning Large Language Model for Universal
Dialogue of 3D Scenes [56.727745047799246]
3Dシーンの理解は幅広い用途で注目されている。
本稿では,事前学習した3次元表現の3次元視覚的知覚能力と,高度なLCMの印象的な推論と会話能力を組み合わせたChat-3Dを提案する。
論文 参考訳(メタデータ) (2023-08-17T03:52:15Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。