論文の概要: Advancing Egocentric Video Question Answering with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2504.04550v1
- Date: Sun, 06 Apr 2025 16:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:24.740786
- Title: Advancing Egocentric Video Question Answering with Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルによるエゴセントリックなビデオ質問応答の改善
- Authors: Alkesh Patel, Vibhav Chitalia, Yinfei Yang,
- Abstract要約: Egocentric Video Question Answering (QA)は、長期的時間的推論、個人的視点、頻繁なカメラムーブメントのような特殊な課題を扱うモデルを必要とする。
本稿では,QaEgo4Dv2上で,プロプライエタリおよびオープンソースのMultimodal Large Language Models(MLLM)を体系的に評価する。
- 参考スコア(独自算出の注目度): 10.111636068164504
- License:
- Abstract: Egocentric Video Question Answering (QA) requires models to handle long-horizon temporal reasoning, first-person perspectives, and specialized challenges like frequent camera movement. This paper systematically evaluates both proprietary and open-source Multimodal Large Language Models (MLLMs) on QaEgo4Dv2 - a refined dataset of egocentric videos derived from QaEgo4D. Four popular MLLMs (GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B and Qwen2-VL-7B-Instruct) are assessed using zero-shot and fine-tuned approaches for both OpenQA and CloseQA settings. We introduce QaEgo4Dv2 to mitigate annotation noise in QaEgo4D, enabling more reliable comparison. Our results show that fine-tuned Video-LLaVa-7B and Qwen2-VL-7B-Instruct achieve new state-of-the-art performance, surpassing previous benchmarks by up to +2.6% ROUGE/METEOR (for OpenQA) and +13% accuracy (for CloseQA). We also present a thorough error analysis, indicating the model's difficulty in spatial reasoning and fine-grained object recognition - key areas for future improvement.
- Abstract(参考訳): Egocentric Video Question Answering (QA)は、長期的時間的推論、個人的視点、頻繁なカメラムーブメントのような特殊な課題を扱うモデルを必要とする。
本稿では,QaEgo4Dv2をベースとした,プロプライエタリおよびオープンソースのマルチモーダル大言語モデル(MLLM)を,QaEgo4Dから派生したエゴセントリックビデオの洗練されたデータセットとして体系的に評価する。
GPT-4o, Gemini-1.5-Pro, Video-LLaVa-7B, Qwen2-VL-7B-Instruct の4つのMLLMを, OpenQA および CloseQA 設定のゼロショットおよび微調整アプローチを用いて評価した。
我々はQaEgo4Dのアノテーションノイズを軽減するためにQaEgo4Dv2を導入し、より信頼性の高い比較を可能にする。
以上の結果から,細調整したVideo-LLaVa-7BとQwen2-VL-7B-Instructは,従来のベンチマークを+2.6% ROUGE/METEOR(OpenQA用)と+13%(CloseQA用)の精度で上回った。
また,空間的推論と微粒化物体認識におけるモデルの困難さが今後の改善の鍵となる領域であることを示す,徹底的な誤差解析も提案する。
関連論文リスト
- A Benchmark for Crime Surveillance Video Analysis with Large Models [22.683394427744616]
監視ビデオにおける異常解析はコンピュータビジョンにおいて重要なトピックである。
近年,マルチモーダル大規模言語モデル (MLLM) は様々な領域においてタスク固有モデルよりも優れている。
UCVLと表記される大規模モデルを用いた犯罪監視ビデオ分析のベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-13T13:38:17Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - MM-Ego: Towards Building Egocentric Multimodal LLMs [72.47344411599322]
本研究の目的は,エゴセントリックな映像理解のためのマルチモーダル基盤モデルの構築である。
我々は,人間による注釈付きデータに基づいて,30秒から1時間に及ぶエゴセントリックビデオの高品質なQAサンプルを効率よく生成するデータエンジンを開発した。
我々は、629の動画と7,026の質問でエゴセントリックなQAベンチマークを作成し、様々な長さのビデオで視覚的詳細を認識・記憶するモデルの能力を評価する。
論文 参考訳(メタデータ) (2024-10-09T17:59:59Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models [32.6243916760583]
本稿では,映像理解における2つの中核的能力(外観と動作理解)を測定するための枠組みを提案する。
我々は、モーションベースと外観ベースの両方で堅牢な視覚表現を構築する、新しいビデオ基盤モデルであるTWLV-Iを紹介する。
V-JEPA (ViT-L) に比べて4.6%改善し, UMT (ViT-L) よりも7.7%改善した。
論文 参考訳(メタデータ) (2024-08-21T03:56:27Z) - AutoEval-Video: An Automatic Benchmark for Assessing Large Vision Language Models in Open-Ended Video Question Answering [6.088350050879401]
我々は,オープンエンドビデオ質問応答において,大規模視覚言語モデルを包括的に評価するための,新しい,挑戦的なベンチマークであるAutoEval-Videoを提案する。
1)AutoEval-Videoは9つのスキルディメンションにまたがるオープンエンドなビデオクエストを構築し,認識能力,理解力,生成能力に対処する。
インスタンス固有のルールを即座に使用することにより、GPT-4を自動評価器として、人間の評価器の94.9%から97.5%の精度に匹敵する、97.0%程度の安定した評価精度を達成できる。
論文 参考訳(メタデータ) (2023-11-25T02:46:12Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。