論文の概要: Optimizing Multimodal LLMs for Egocentric Video Understanding: A Solution for the HD-EPIC VQA Challenge
- arxiv url: http://arxiv.org/abs/2601.10228v1
- Date: Thu, 15 Jan 2026 09:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.085244
- Title: Optimizing Multimodal LLMs for Egocentric Video Understanding: A Solution for the HD-EPIC VQA Challenge
- Title(参考訳): エゴセントリックビデオ理解のためのマルチモーダルLLMの最適化:HD-EPIC VQAチャレンジへの解決策
- Authors: Sicheng Yang, Yukai Huang, Shitong Sun, Weitong Cai, Jiankang Deng, Jifei Song, Zhensong Zhang,
- Abstract要約: 本稿では,クエリ/選択前処理,ドメイン固有のQwen2.5-VL微調整,マルチステップ推論の促進を目的とした新しいT-CoTを提案する。
このシステムはHD-EPIC VQAで41.6%の精度を実現し、ビデオ理解の要求に対して全体的パイプライン最適化の必要性を強調した。
- 参考スコア(独自算出の注目度): 52.31833115696867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) struggle with complex video QA benchmarks like HD-EPIC VQA due to ambiguous queries/options, poor long-range temporal reasoning, and non-standardized outputs. We propose a framework integrating query/choice pre-processing, domain-specific Qwen2.5-VL fine-tuning, a novel Temporal Chain-of-Thought (T-CoT) prompting for multi-step reasoning, and robust post-processing. This system achieves 41.6% accuracy on HD-EPIC VQA, highlighting the need for holistic pipeline optimization in demanding video understanding. Our code, fine-tuned models are available at https://github.com/YoungSeng/Egocentric-Co-Pilot.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、不明瞭なクエリ/オプション、長距離時間的推論の貧弱、および非標準出力によるHD-EPIC VQAのような複雑なビデオQAベンチマークと競合する。
本稿では,クエリ/選択前処理,ドメイン固有のQwen2.5-VL微調整,マルチステップ推論,堅牢な後処理の促進を目的とした新しいT-CoTを提案する。
このシステムはHD-EPIC VQAで41.6%の精度を実現し、ビデオ理解の要求に対して全体的パイプライン最適化の必要性を強調した。
私たちのコード、微調整モデルはhttps://github.com/YoungSeng/Egocentric-Co-Pilot.comで利用可能です。
関連論文リスト
- Vidi2: Large Multimodal Models for Video Understanding and Creation [39.82972197371385]
微粒な時間的接地(STG)によるVdi2ビデオ理解とビデオ質問応答能力の向上(ビデオQA)
テキストクエリが与えられた場合、Vidi2は対応するタイムスタンプだけでなく、出力時間範囲内の対象オブジェクトのバウンディングボックスも識別できる。
このエンドツーエンドの時間的グラウンド機能は、複雑な編集シナリオにおける潜在的なアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-11-24T07:58:29Z) - Video-MTR: Reinforced Multi-Turn Reasoning for Long Video Understanding [33.58579390725519]
Video-MTRは、反復的なキーセグメントの選択と質問理解を可能にするために設計された強化されたマルチターン推論フレームワークである。
単一のターンで予測を生成する従来のビデオ推論パイプラインとは異なり、Video-MTRは複数のターンで推論を実行する。
中間推論プロセスを保証するため,新たな二段階報酬システムを導入する。
論文 参考訳(メタデータ) (2025-08-28T06:55:08Z) - Advancing Egocentric Video Question Answering with Multimodal Large Language Models [10.111636068164504]
Egocentric Video Question Answering (QA)は、長期的時間的推論、個人的視点、頻繁なカメラムーブメントのような特殊な課題を扱うモデルを必要とする。
本稿では,QaEgo4Dv2上で,プロプライエタリおよびオープンソースのMultimodal Large Language Models(MLLM)を体系的に評価する。
論文 参考訳(メタデータ) (2025-04-06T16:58:23Z) - VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - A Simple LLM Framework for Long-Range Video Question-Answering [63.50439701867275]
長距離ビデオ質問応答(LVQA)のための言語ベースのフレームワークであるLLoViを提案する。
我々のアプローチでは、フレーム/クリップレベルの視覚キャプタと大言語モデル(GPT-3.5, GPT-4)を併用する。
提案手法は50.3%の精度を達成し,従来のベストパフォーマンスアプローチを18.1%(絶対ゲイン)で上回った。
論文 参考訳(メタデータ) (2023-12-28T18:58:01Z) - MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form
Video Question Answering [73.61182342844639]
我々は,MIST(Multi-modal Iterative Spatial-temporal Transformer)と呼ばれる新しいモデルを導入する。
MISTは、従来の密集時空間自己アテンションをカスケードセグメントと領域選択モジュールに分解する。
異なる粒度の視覚概念は、アテンションモジュールを通して効率的に処理される。
論文 参考訳(メタデータ) (2022-12-19T15:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。