論文の概要: EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
- arxiv url: http://arxiv.org/abs/2508.10729v1
- Date: Thu, 14 Aug 2025 15:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.374017
- Title: EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering
- Title(参考訳): EgoCross: クロスドメインなEgocentric Video Question Answeringのためのマルチモーダルな大規模言語モデルのベンチマーク
- Authors: Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang,
- Abstract要約: EgoCrossは、EgocentricQAにおけるMLLMのクロスドメイン一般化を評価するためのベンチマークである。
EgoCrossは、手術、産業、極端なスポーツ、動物の観点からの4つの分野をカバーしている。
798のビデオクリップにまたがる約1000のQAペアで構成され、予測、認識、ローカライゼーション、カウントという4つの重要なQAタスクにまたがる。
- 参考スコア(独自算出の注目度): 59.94048858464922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have significantly pushed the frontier of egocentric video question answering (EgocentricQA). However, existing benchmarks and studies are mainly limited to common daily activities such as cooking and cleaning. In contrast, real-world deployment inevitably encounters domain shifts, where target domains differ substantially in both visual style and semantic content. To bridge this gap, we introduce \textbf{EgoCross}, a comprehensive benchmark designed to evaluate the cross-domain generalization of MLLMs in EgocentricQA. EgoCross covers four diverse and challenging domains, including surgery, industry, extreme sports, and animal perspective, representing realistic and high-impact application scenarios. It comprises approximately 1,000 QA pairs across 798 video clips, spanning four key QA tasks: prediction, recognition, localization, and counting. Each QA pair provides both OpenQA and CloseQA formats to support fine-grained evaluation. Extensive experiments show that most existing MLLMs, whether general-purpose or egocentric-specialized, struggle to generalize to domains beyond daily life, highlighting the limitations of current models. Furthermore, we conduct several pilot studies, \eg, fine-tuning and reinforcement learning, to explore potential improvements. We hope EgoCross and our accompanying analysis will serve as a foundation for advancing domain-adaptive, robust egocentric video understanding. Data and codes will be released at: \href{https://github.com/MyUniverse0726/EgoCross}{https://github.com/MyUniverse0726/EgoCross.}
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、エゴセントリックなビデオ質問応答(Egocentric QA)のフロンティアを著しく押し上げている。
しかし、既存のベンチマークや研究は主に調理や清掃などの日常的な活動に限られている。
対照的に、現実世界のデプロイメントは必然的にドメインシフトに遭遇し、ターゲットドメインはビジュアルスタイルとセマンティックコンテンツの両方で大きく異なる。
このギャップを埋めるために、EgocentricQAにおけるMLLMのクロスドメイン一般化を評価するために設計された包括的なベンチマークである「textbf{EgoCross}」を導入する。
EgoCrossは、手術、産業、極端なスポーツ、動物の視点を含む4つの多様で挑戦的なドメインをカバーし、現実的で高インパクトのアプリケーションシナリオを表現している。
798のビデオクリップにまたがる約1000のQAペアで構成され、予測、認識、ローカライゼーション、カウントという4つの重要なQAタスクにまたがる。
各QAペアは、きめ細かい評価をサポートするために、OpenQAフォーマットとCloseQAフォーマットの両方を提供する。
大規模な実験により、ほとんどの既存のMLLMは、汎用的であれ、エゴセントリックな特殊化であれ、日々の生活を超えた領域への一般化に苦慮し、現在のモデルの限界を浮き彫りにしている。
さらに、我々は、潜在的な改善を検討するために、いくつかのパイロット研究、例えば、微調整、強化学習を実施している。
EgoCrossとそれに伴う分析が、ドメイン適応的で堅牢なエゴセントリックなビデオ理解の基盤になることを期待しています。
データとコードは次の通りリリースされる。 \href{https://github.com/MyUniverse0726/EgoCross}{https://github.com/MyUniverse0726/EgoCross。
※
関連論文リスト
- Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency [29.28977802424541]
視覚的依存を明示するマルチモーダル数学的推論のためのベンチマークであるVCBENCHを紹介する。
VCBENCHには6つの認知領域に1,720の問題がある。
我々は、VCBENCH上で26の最先端LVLMを評価し、高い性能差を示し、トップモデルでさえ50%以上の精度を達成できなかった。
論文 参考訳(メタデータ) (2025-04-24T06:16:38Z) - From Multimodal LLMs to Generalist Embodied Agents: Methods and Lessons [85.99268361356832]
一般身体エージェント(GEA)にMLLMを適用するプロセスを紹介する。
GEAは、多体アクショントークンーザを通じて、さまざまなドメインにまたがって自分自身をグラウンド化できる単一の統一モデルである。
本研究は,汎用エージェント構築のためのクロスドメインデータとオンラインRLを用いたトレーニングの重要性を明らかにした。
論文 参考訳(メタデータ) (2024-12-11T15:06:25Z) - ObjectRelator: Enabling Cross-View Object Relation Understanding Across Ego-Centric and Exo-Centric Perspectives [109.11714588441511]
Ego-Exoオブジェクト対応タスクは,セグメンテーションを通じて,ego-Exoパースペクティブ間のオブジェクト関係を理解することを目的としている。
最近提案されたセグメンテーション手法であるPSALMは、このタスクでデモされたゼロショット能力を例外として挙げている。
我々は、マルチモーダルコンディションフュージョンとSSLベースのクロスビューオブジェクトアライメントという、2つの重要なモジュールを特徴とする新しいアプローチであるObjectRelatorを提案する。
論文 参考訳(メタデータ) (2024-11-28T12:01:03Z) - Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering [71.62961521518731]
HeurVidQAは、ドメイン固有のエンティティアクションを利用して、事前訓練されたビデオ言語基盤モデルを洗練するフレームワークである。
我々のアプローチでは、これらのモデルを暗黙の知識エンジンとして扱い、ドメイン固有のエンティティアクションプロンサを使用して、推論を強化する正確な手がかりにモデルを焦点を向けます。
論文 参考訳(メタデータ) (2024-10-12T06:22:23Z) - X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization [56.75782714530429]
我々はX-MICと呼ぶクロスモーダル適応フレームワークを提案する。
私たちのパイプラインは、凍結したテキストの埋め込みを、共有された埋め込み空間内で、それぞれのエゴセントリックなビデオにアライメントすることを学びました。
これにより、各エゴセントリックビデオへのテキスト埋め込みのアライメントが向上し、データセットの一般化が大幅に向上する。
論文 参考訳(メタデータ) (2024-03-28T19:45:35Z) - DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception [30.113617846516398]
DualCrossは、より堅牢なBEV知覚モデルの学習を容易にする、クロスモダリティのクロスドメイン適応フレームワークである。
この研究は、クロスドメイン・クロスセンサーの認識と野生における単分子3Dタスクへの適応を初めてオープンに解析する結果となった。
論文 参考訳(メタデータ) (2023-05-05T17:58:45Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。