論文の概要: EgoExo-Con: Exploring View-Invariant Video Temporal Understanding
- arxiv url: http://arxiv.org/abs/2510.26113v1
- Date: Thu, 30 Oct 2025 03:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.649615
- Title: EgoExo-Con: Exploring View-Invariant Video Temporal Understanding
- Title(参考訳): EgoExo-Con: ビュー不変ビデオ時間理解の探求
- Authors: Minjoon Jung, Junbin Xiao, Junghyun Kim, Byoung-Tak Zhang, Angela Yao,
- Abstract要約: Video-LLMは、ビデオが異なる視点から同じイベントをキャプチャしたとき、一貫した時間的理解を実現することができるか?
EgoExo-Con (Consistency) は、自然言語による人間精製クエリと総合的に同期されたエゴセントリックおよびエクソセントリックなビデオペアのベンチマークである。
ビュー固有の時間的推論を効果的に強化する新しい強化学習フレームワークであるView-GRPOを提案する。
- 参考スコア(独自算出の注目度): 66.25513481642845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can Video-LLMs achieve consistent temporal understanding when videos capture the same event from different viewpoints? To study this, we introduce EgoExo-Con (Consistency), a benchmark of comprehensively synchronized egocentric and exocentric video pairs with human-refined queries in natural language. EgoExo-Con emphasizes two temporal understanding tasks: Temporal Verification and Temporal Grounding. It evaluates not only correctness but consistency across viewpoints. Our analysis reveals two critical limitations of existing Video-LLMs: (1) models often fail to maintain consistency, with results far worse than their single-view performances. (2) When naively finetuned with synchronized videos of both viewpoints, the models show improved consistency but often underperform those trained on a single view. For improvements, we propose View-GRPO, a novel reinforcement learning framework that effectively strengthens view-specific temporal reasoning while encouraging consistent comprehension across viewpoints. Our method demonstrates its superiority over naive SFT and GRPO, especially for improving cross-view consistency. All resources will be made publicly available.
- Abstract(参考訳): Video-LLMは、ビデオが異なる視点から同じイベントをキャプチャしたとき、一貫した時間的理解を実現することができるか?
そこで本研究では,EgoExo-Con(Consistency)について紹介する。
EgoExo-Conは、時間的検証と時間的接地という2つの時間的理解課題を強調している。
正確性だけでなく、視点による一貫性も評価する。
1)モデルは一貫性の維持に失敗することが多く、その結果はシングルビューのパフォーマンスよりもはるかに悪い。
2) 両視点の同期映像を鼻で微調整すると, 整合性は向上するが, 一つの視点で訓練した映像を過小評価することが多い。
改良のために,ビュー固有の時間的推論を効果的に強化し,視点間の一貫した理解を促進する新しい強化学習フレームワークであるView-GRPOを提案する。
提案手法は, SFT や GRPO よりも優れていることを示す。
すべてのリソースが公開されます。
関連論文リスト
- Video-LLMs with Temporal Visual Screening [59.18455762289321]
テンポラル・ビジュアル・スクリーニング (TVS) はビデオ質問応答とチューニングデータを処理する新しいタスクである。
TVSは、ビデオインストラクションチューニング(トレーニング)とビデオ質問回答(推論)パイプラインの両方にシームレスに統合可能な、モジュール化されたフロントエンドアダプタタスクとして定式化されている。
実験により、TVSを取り入れた場合、相対利得は7.33%(トレーニング)、34.6%(推論)となることが示された。
論文 参考訳(メタデータ) (2025-08-27T14:33:32Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models [55.48403691519395]
トマト(Tomato)は、ビデオ理解におけるMFMの時間的推論能力を厳格に評価するための新しいベンチマークである。
TOMATOは、6つのタスクにまたがる1,484件の注意深いキュレーションと人間による注釈付き質問で構成されている。
総合評価の結果, 人体モデルの性能差は57.3%であり, 最良性能モデルでは57.3%であった。
論文 参考訳(メタデータ) (2024-10-30T17:50:23Z) - Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions? [48.702973928321946]
Egocentric Video-Language Pretrainingは、一対一のシナリオにおける手動対話の理解を促進するための重要なステップである。
既存のテストベッドでの成功にもかかわらず、現在のEgoVLMは簡単な修正によって容易に誤認できることがわかった。
EgoVLMは手動オブジェクトの相互作用を本当に理解していますか?
論文 参考訳(メタデータ) (2024-05-28T00:27:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。