論文の概要: WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning
- arxiv url: http://arxiv.org/abs/2405.03272v1
- Date: Mon, 6 May 2024 08:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 14:25:38.977281
- Title: WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning
- Title(参考訳): WorldQA: 長鎖推論によるビデオにおけるマルチモーダルな世界知識
- Authors: Yuanhan Zhang, Kaichen Zhang, Bo Li, Fanyi Pu, Christopher Arif Setiadharma, Jingkang Yang, Ziwei Liu,
- Abstract要約: マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。
質問の定式化に不可欠な5つの世界知識を同定する。
我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
- 参考スコア(独自算出の注目度): 49.72868038180909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal information, together with our knowledge, help us to understand the complex and dynamic world. Large language models (LLM) and large multimodal models (LMM), however, still struggle to emulate this capability. In this paper, we present WorldQA, a video understanding dataset designed to push the boundaries of multimodal world models with three appealing properties: (1) Multimodal Inputs: The dataset comprises 1007 question-answer pairs and 303 videos, necessitating the analysis of both auditory and visual data for successful interpretation. (2) World Knowledge: We identify five essential types of world knowledge for question formulation. This approach challenges models to extend their capabilities beyond mere perception. (3) Long-Chain Reasoning: Our dataset introduces an average reasoning step of 4.45, notably surpassing other videoQA datasets. Furthermore, we introduce WorldRetriever, an agent designed to synthesize expert knowledge into a coherent reasoning chain, thereby facilitating accurate responses to WorldQA queries. Extensive evaluations of 13 prominent LLMs and LMMs reveal that WorldRetriever, although being the most effective model, achieved only 70% of humanlevel performance in multiple-choice questions. This finding highlights the necessity for further advancement in the reasoning and comprehension abilities of models. Our experiments also yield several key insights. For instance, while humans tend to perform better with increased frames, current LMMs, including WorldRetriever, show diminished performance under similar conditions. We hope that WorldQA,our methodology, and these insights could contribute to the future development of multimodal world models.
- Abstract(参考訳): マルチモーダル情報は、私たちの知識とともに、複雑で動的な世界を理解するのに役立ちます。
しかし、LMM(Large Language Model)やLMM(Large Multimodal Model)は、この能力のエミュレートに苦慮している。
本稿では,(1)マルチモーダル入力:1007組の質問応答対と303組の動画からなるマルチモーダル世界モデルのバウンダリを押し上げるために設計された映像理解データセットWorldQAを提案する。
2)世界知識: 質問の定式化に欠かせない5つの世界知識を同定する。
このアプローチでは、モデルが単に知覚を超えた能力を拡張することを課題にしている。
(3)Long-Chain Reasoning: 我々のデータセットは、他のビデオQAデータセットを上回る平均4.45の推論ステップを導入しています。
さらに、専門家の知識をコヒーレントな推論チェーンに合成し、WorldQAクエリに対する正確な応答を容易にするために設計されたエージェントであるWorldRetrieverを紹介する。
13の卓越したLLMとLMMの大規模な評価により、WorldRetrieverは最も効果的なモデルであるが、複数の質問において人間レベルのパフォーマンスの70%しか達成していないことが判明した。
この発見は、モデルの推論と理解能力のさらなる進歩の必要性を浮き彫りにしている。
私たちの実験は、いくつかの重要な洞察ももたらします。
例えば、人間がフレームの増加でパフォーマンスが向上する一方で、WorldRetrieverを含む現在のLMMでは、同様の条件下でのパフォーマンスが低下している。
我々は、WorldQA、私たちの方法論、そしてこれらの洞察が、将来のマルチモーダルワールドモデルの発展に寄与することを期待している。
関連論文リスト
- MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos [155.52885252910693]
MMWorldは,複数分野のマルチモードビデオ理解のための新しいベンチマークである。
MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。
この評価には2つのプロプライエタリなMLLMと10のオープンソースMLLMが含まれており、MMWorldと競合している。
論文 参考訳(メタデータ) (2024-06-12T16:54:54Z) - CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in
Open Worlds [37.22688246779871]
大型言語モデル(LLM)は、世界と対話する自己駆動能力を持つエンボディエージェントを装備できる。
LLMはオープン世界の視覚的豊かさを見落とし、インタラクティブなプロセス全体を「目隠しされたテキストベースのゲーム」のように表現する傾向がある。
我々は、この制限に対処するために、エンドツーエンドで訓練された大規模マルチモーダルモデルであるSteve-Eyeを提案する。
論文 参考訳(メタデータ) (2023-10-20T03:22:05Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。