論文の概要: UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces
- arxiv url: http://arxiv.org/abs/2503.06157v1
- Date: Sat, 08 Mar 2025 10:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:58.851219
- Title: UrbanVideo-Bench: Benchmarking Vision-Language Models on Embodied Intelligence with Video Data in Urban Spaces
- Title(参考訳): UrbanVideo-Bench: 都市空間における映像データを用いた身体情報を用いた視覚言語モデルのベンチマーク
- Authors: Baining Zhao, Jianjie Fang, Zichao Dai, Ziyou Wang, Jirong Zha, Weichen Zhang, Chen Gao, Yue Wang, Jinqiang Cui, Xinlei Chen, Yong Li,
- Abstract要約: 大規模マルチモーダルモデルは目覚ましい知性を示すが、オープンエンドの都市3D空間における運動中の認知能力の具体化はいまだ研究されていない。
ビデオ大言語モデル(ビデオ-LLM)が人間のような連続した一対一の視覚的観察を自然に処理できるかどうかを評価するためのベンチマークを導入する。
私たちは手動でドローンを制御して、現実世界の都市やシミュレートされた環境から3Dエンボディされたモーションビデオデータを収集しました。
- 参考スコア(独自算出の注目度): 37.74820838295009
- License:
- Abstract: Large multimodal models exhibit remarkable intelligence, yet their embodied cognitive abilities during motion in open-ended urban 3D space remain to be explored. We introduce a benchmark to evaluate whether video-large language models (Video-LLMs) can naturally process continuous first-person visual observations like humans, enabling recall, perception, reasoning, and navigation. We have manually control drones to collect 3D embodied motion video data from real-world cities and simulated environments, resulting in 1.5k video clips. Then we design a pipeline to generate 5.2k multiple-choice questions. Evaluations of 17 widely-used Video-LLMs reveal current limitations in urban embodied cognition. Correlation analysis provides insight into the relationships between different tasks, showing that causal reasoning has a strong correlation with recall, perception, and navigation, while the abilities for counterfactual and associative reasoning exhibit lower correlation with other tasks. We also validate the potential for Sim-to-Real transfer in urban embodiment through fine-tuning.
- Abstract(参考訳): 大規模マルチモーダルモデルは目覚ましい知性を示すが、オープンエンドの都市3D空間における運動中の認知能力の具体化はいまだ研究されていない。
ビデオ大言語モデル(ビデオ-LLM)が人間のような連続した一対一の視覚的観察を自然に処理し、リコール、知覚、推論、ナビゲーションを可能にするかどうかを評価するためのベンチマークを導入する。
私たちは手動でドローンを制御して、現実世界の都市やシミュレートされた環境から3Dエンボディされたモーションビデオデータを収集しました。
次に,5.2kの複数質問を生成するパイプラインを設計する。
広範に使用されている17のビデオLLMの評価は、都市環境認識における現在の限界を明らかにしている。
相関分析は、異なるタスク間の関係についての洞察を与え、因果推論がリコール、知覚、ナビゲーションと強い相関を持つ一方で、反事実的および連想的推論の能力は他のタスクとの相関が低いことを示す。
また, 微調整による都市エボディメントにおけるSim-to-Realトランスファーの可能性についても検証した。
関連論文リスト
- Embodied VideoAgent: Persistent Memory from Egocentric Videos and Embodied Sensors Enables Dynamic Scene Understanding [21.619878862869754]
Embodied VideoAgentは、エゴセントリックビデオとエンボディインプットの両方からシーンメモリを構築する。
我々は,ロボット操作において,具体的相互作用の生成や知覚など,様々なAIタスクにおいてその可能性を実証した。
論文 参考訳(メタデータ) (2024-12-31T09:22:38Z) - Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces [34.809309396448654]
5000組以上の質問応答対からなるビデオベース視覚空間インテリジェンスベンチマーク(VSI-Bench)を提案する。
MLLM(Multimodal Large Language Models)は,非人間的な視覚空間知能を持つ。
論文 参考訳(メタデータ) (2024-12-18T18:59:54Z) - Eyes on the Road: State-of-the-Art Video Question Answering Models Assessment for Traffic Monitoring Tasks [0.0]
本研究では、非ベンチマーク合成および実世界のトラフィックシーケンスを用いて、最先端のビデオQAモデルの評価を行う。
VideoLLaMA-2は57%の精度で進行する。
これらの知見は、トラフィック監視におけるVideoQAの可能性を裏付けるだけでなく、多目的追跡、時間的推論、合成機能の改善の必要性も強調している。
論文 参考訳(メタデータ) (2024-12-02T05:15:32Z) - FIction: 4D Future Interaction Prediction from Video [63.37136159797888]
ビデオから4次元のインタラクション予測を導入する。
人間の活動のインプットビデオが与えられたら、その人が次に対話する3D位置のオブジェクトを予測することが目的だ。
提案手法は,従来の自己回帰的および(リフト)2次元ビデオモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-12-01T18:44:17Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - FunQA: Towards Surprising Video Comprehension [64.58663825184958]
本稿では,挑戦的なビデオ質問応答データセットであるFunQAを紹介する。
FunQAはHumorQA、CreativeQA、MagicQAの3種類の驚くべきビデオをカバーしている。
FunQAベンチマークは4.3Kビデオクリップから派生した312KのフリーテキストQAペアで構成されている。
論文 参考訳(メタデータ) (2023-06-26T17:59:55Z) - Human-Object Interaction Prediction in Videos through Gaze Following [9.61701724661823]
我々は、現在のHOIを検出し、将来のHOIをビデオで予測するためのフレームワークを設計する。
我々は、人間がオブジェクトと対話する前にしばしば固定するので、人間の情報を活用することを提案する。
我々のモデルは、日々の生活を捉えたビデオを含むVidHOIデータセットで訓練され、検証されている。
論文 参考訳(メタデータ) (2023-06-06T11:36:14Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - Egocentric Activity Recognition and Localization on a 3D Map [94.30708825896727]
我々は,エゴセントリックなビデオから既知の3Dマップ上で,モバイルユーザの行動を共同で認識し,位置決めする問題に対処する。
本モデルでは,環境の階層的容積表現(HVR)とエゴセントリックなビデオの入力を取得し,その3次元動作位置を潜在変数として推定し,その潜在的な位置を囲む映像および文脈的手がかりに基づいて動作を認識する。
論文 参考訳(メタデータ) (2021-05-20T06:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。