論文の概要: ArrowGEV: Grounding Events in Video via Learning the Arrow of Time
- arxiv url: http://arxiv.org/abs/2601.06559v1
- Date: Sat, 10 Jan 2026 13:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.876207
- Title: ArrowGEV: Grounding Events in Video via Learning the Arrow of Time
- Title(参考訳): ArrowGEV: 時間軸学習によるビデオ中のイベントのグラウンド化
- Authors: Fangxu Yu, Ziyao Lu, Liqiang Niu, Fandong Meng, Jie Zhou,
- Abstract要約: 本稿では,イベントの時間方向を明示的にモデル化する強化学習フレームワークであるArrowGEVを提案する。
時間に敏感なイベントのために、ArrowGEVはVLMに前方ビデオと後方ビデオの区別を促す報酬を導入した。
広汎な実験により、ArrowGEVは接地精度と時間方向認識を向上するだけでなく、一般的な映像理解と推論能力を向上させることが示されている。
- 参考スコア(独自算出の注目度): 50.53601157420355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding events in videos serves as a fundamental capability in video analysis. While Vision-Language Models (VLMs) are increasingly employed for this task, existing approaches predominantly train models to associate events with timestamps in the forward video only. This paradigm hinders VLMs from capturing the inherent temporal structure and directionality of events, thereby limiting robustness and generalization. To address this limitation, inspired by the arrow of time in physics, which characterizes the intrinsic directionality of temporal processes, we propose ArrowGEV, a reinforcement learning framework that explicitly models temporal directionality in events to improve both event grounding and temporal directionality understanding in VLMs. Specifically, we categorize events into time-sensitive (e.g., putting down a bag) and time-insensitive (e.g., holding a towel in the left hand). The former denote events whose reversal substantially alters their meaning, while the latter remain semantically unchanged under reversal. For time-sensitive events, ArrowGEV introduces a reward that encourages VLMs to discriminate between forward and backward videos, whereas for time-insensitive events, it enforces consistent grounding across both directions. Extensive experiments demonstrate that ArrowGEV not only improves grounding precision and temporal directionality recognition, but also enhances general video understanding and reasoning ability.
- Abstract(参考訳): ビデオにおけるグラウンドイベントは、ビデオ分析の基本的な機能として機能する。
VLM(Vision-Language Models)はこのタスクにますます採用されているが、既存のアプローチは主に、前方ビデオのタイムスタンプとイベントを関連付けるためにモデルをトレーニングしている。
このパラダイムは、VLMが事象の時間的構造と方向性を捉えるのを妨げるため、ロバスト性や一般化を制限する。
時間的プロセスの内在的な方向性を特徴付ける物理における時間的矢印に着想を得たこの制限に対処するために,イベントの時間的方向性を明示的にモデル化し,VLMにおける事象接地と時間的方向性理解の両方を改善するための強化学習フレームワークであるArrowGEVを提案する。
具体的には、イベントを時間に敏感(例えば、バッグを降ろす)と時間に敏感(例えば、左手にタオルを持っている)に分類する。
前者は逆転が意味を実質的に変化させる事象を表し、後者は逆転の下で意味的に変化しない。
ArrowGEVは、時間に敏感なイベントに対して、VLMが前方と後方の動画を区別することを奨励する報酬を導入し、一方、時間に敏感なイベントでは、両方向を一貫した接地を強制する。
広汎な実験により、ArrowGEVは接地精度と時間方向認識を向上するだけでなく、一般的な映像理解と推論能力を向上させることが示されている。
関連論文リスト
- 1 + 1 > 2: Detector-Empowered Video Large Language Model for Spatio-Temporal Grounding and Reasoning [53.28271278708241]
本稿では,DEViL の略である Detector-Empowered Video LLM を提案する。
DEViLはオープンボキャブラリ検出器(OVD)とビデオLLMを結合する
単に空間的なプロンプトやセグメンタスイッチとして機能するトークンとは異なり、RTTは制御信号とOVDのテキスト埋め込みの置き換えの両方として機能する。
論文 参考訳(メタデータ) (2025-12-07T06:11:15Z) - What Happens When: Learning Temporal Orders of Events in Videos [23.17822149091485]
Video Large Multimodal Models (VLMM) はビデオ理解において顕著な性能を示しているが、複数のイベントの時間順序を正確に把握する能力はいまだ探索されていない。
本稿では,イベントの時間的順序を識別するモデルの能力を明確に評価するために,VECTORを提案する。
本稿では,詳細なイベント・バイ・イベントの映像記述をモデルとしてトレーニングし,時間的意識を高めるために,推論時にチェーン・オブ・ソート・プロンプトを利用するMECOTを提案する。
論文 参考訳(メタデータ) (2025-12-05T07:50:59Z) - Chirality in Action: Time-Aware Video Representation Learning by Latent Straightening [54.66784646111214]
新しいタスク:カイラルな行動認識(chiral action recognition)を導入し、時間的に反対な行動のペアを区別する必要がある。
私たちのゴールは、これらのカイラルペア間の線形分離性を提供する、時間を考慮したビデオ表現を作ることです。
その結果、3つのデータセットにまたがって提案したタスクに対して,コンパクトだが時間に敏感なビデオ表現が得られることがわかった。
論文 参考訳(メタデータ) (2025-09-10T11:23:10Z) - When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - Seeing the Arrow of Time in Large Multimodal Models [60.56280929030237]
現在の大規模マルチモーダルモデル(LMM)は、言語クエリに応答する際のビデオの時間方向の知覚と利用に苦慮している。
本稿では,強化学習(RL)に基づく学習戦略であるArrowRLを紹介する。
厳密な評価のために、時間的課題を探索する新しい多面的ベンチマークであるAoTBenchを開発する。
論文 参考訳(メタデータ) (2025-06-03T19:32:07Z) - Moment Quantization for Video Temporal Grounding [29.081100914208974]
我々は、新しいモーメント量子化に基づくビデオ時間グラウンド法(MQVTG)を提案する。
MQVTGは入力ビデオを様々な離散ベクトルに量子化し、関連するモーメントと無関係なモーメントの識別を強化する。
本手法は,関係する特徴を効果的にグループ化し,無関係な特徴を分離し,差別の強化を目標とする。
論文 参考訳(メタデータ) (2025-04-03T05:21:14Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。