論文の概要: Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model
- arxiv url: http://arxiv.org/abs/2408.00754v1
- Date: Thu, 1 Aug 2024 17:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 19:37:48.232110
- Title: Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model
- Title(参考訳): マルチモーダル言語モデルにおける粗対応3次元時空間理解
- Authors: Benlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna,
- Abstract要約: マルチモーダル言語モデル(MLLM)は、現実の環境でますます実装されている。
その可能性にもかかわらず、現在のコミュニティ内のトップモデルは、空間的次元と時間的次元を十分に理解できないままです。
本稿では,3次元・時間的理解を喚起するための訓練不要,効果的,汎用的な視覚刺激法である粗対応について紹介する。
- 参考スコア(独自算出の注目度): 52.27297680947337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal language models (MLLMs) are increasingly being implemented in real-world environments, necessitating their ability to interpret 3D spaces and comprehend temporal dynamics. Despite their potential, current top models within our community still fall short in adequately understanding spatial and temporal dimensions. We introduce Coarse Correspondence, a simple, training-free, effective, and general-purpose visual prompting method to elicit 3D and temporal understanding in multimodal LLMs. Our method uses a lightweight tracking model to find object correspondences between frames in a video or between sets of image viewpoints. It selects the most frequent object instances and visualizes them with markers with unique IDs in the image. With this simple approach, we achieve state-of-the-art results on 3D understanding benchmarks including ScanQA (+20.5\%) and a subset of OpenEQA (+9.7\%), and on long-form video benchmarks such as EgoSchema (+6.0\%). We also curate a small diagnostic dataset to evaluate whether MLLMs can reason about space from a described viewpoint other than the camera viewpoint. Again, Coarse Correspondence improves spatial perspective-taking abilities but we highlight that MLLMs struggle with this task. Together, we demonstrate that our simple prompting method can significantly aid downstream tasks that require 3D or temporal reasoning.
- Abstract(参考訳): マルチモーダル言語モデル(MLLM)は,3次元空間を解釈し,時間的ダイナミクスを理解する能力を必要とする実環境において,ますます実装されている。
その可能性にもかかわらず、現在のコミュニティ内のトップモデルは、空間的次元と時間的次元を十分に理解できないままです。
我々は,マルチモーダルLLMにおける3Dおよび時間的理解を引き出すために,簡単な,トレーニング不要,効果的,汎用的な視覚的プロンプト手法である粗対応を導入する。
本手法は,映像のフレーム間や画像視点のセット間のオブジェクト対応を見つけるために,軽量な追跡モデルを用いる。
最も頻繁なオブジェクトインスタンスを選択し、イメージにユニークなIDを持つマーカーでそれらを視覚化する。
この単純なアプローチにより、ScanQA (+20.5\%) やOpenEQA (+9.7\%) のサブセットを含む3D理解ベンチマークや、EgoSchema (+6.0\%) のような長めのビデオベンチマークにおける最先端の結果が得られる。
また、MLLMがカメラ視点以外の記述された視点から空間を推論できるかどうかを評価するために、小さな診断データセットをキュレートする。
繰り返しになるが、粗対応は空間的視点取り能力を向上させるが、MLLMがこの課題に苦慮している点を強調する。
同時に,本手法は3次元および時間的推論を必要とする下流タスクを効果的に支援できることを実証した。
関連論文リスト
- Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - Efficient Transfer Learning for Video-language Foundation Models [13.166348605993292]
テキストと視覚分岐における表現のアライメントを改善するため,MSTA(Multi-modal Spatio-supervised)を提案する。
提案手法の有効性は,ゼロショット転送,少数ショット学習,ベース・ツー・ヴァリアント,完全言語学習の4つの課題にまたがる。
論文 参考訳(メタデータ) (2024-11-18T01:25:58Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。