論文の概要: Video Understanding: Through A Temporal Lens
- arxiv url: http://arxiv.org/abs/2602.00683v1
- Date: Sat, 31 Jan 2026 12:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.335543
- Title: Video Understanding: Through A Temporal Lens
- Title(参考訳): ビデオ理解:テンポラルレンズで見る
- Authors: Thong Thanh Nguyen,
- Abstract要約: この論文は、映像要素間の時間的関係を利用して映像理解を促進する方法について、中心的な疑問を提起する。
本研究は,(1)大規模視覚言語モデルを用いた自動アノテーションフレームワークと,(2)低データ状態における時間的ダイナミクスを捉えるためのパラメータ効率のよい微調整戦略,(3)高効率な長期ビデオモデリングのためのステートスペースレイヤの統合,(4)動きと映像の微妙な関係を明示的にモデル化する新しいコントラスト学習フレームワークを提示する。
- 参考スコア(独自算出の注目度): 5.153774021264937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis explores the central question of how to leverage temporal relations among video elements to advance video understanding. Addressing the limitations of existing methods, the work presents a five-fold contribution: (1) an automatic annotation framework that utilizes large vision-language models and a noise-robust contrastive learning objective with a subtractive angular margin; (2) a parameter-efficient fine-tuning strategy using "recurrent adapters" to capture temporal dynamics in low-data regimes; (3) the integration of State Space Layers (SSL) for efficient long-form video modeling, supported by the introduction of two new long-term benchmarks for egocentric and feature-length content; (4) a novel contrastive learning framework designed to explicitly model fine-grained relations between motions and video moments; and (5) a comprehensive empirical study on Large Vision-Language Models (LVLMs) that identifies the visual-language interface as a bottleneck for temporal reasoning, leading to a new "temporal-oriented recipe" for upscaled video understanding. Collectively, these contributions demonstrate that explicit temporal modeling significantly enhances a model's ability to represent and reason about the fluid nature of video content.
- Abstract(参考訳): この論文は、映像要素間の時間的関係を利用して映像理解を促進する方法について、中心的な疑問を提起する。
既存の手法の限界に対処するため,(1)大規模視覚言語モデルと雑音ロスの対比学習目標を用いた自動アノテーションフレームワーク,(2)低データ状態における時間的ダイナミックスを捉えるために"リカレントアダプタ"を用いたパラメータ効率のよい微調整戦略,(3)効率的な長大なビデオモデリングのためのステートスペースレイヤ(SSL)の統合,(4)動きと映像の微妙な関係を明示的にモデル化する新しいコントラスト学習フレームワーク,(5)大規模視覚言語モデル(LLM)に関する総合的な実証的研究,などが提案されている。
これらのコントリビューションは、明示的な時間的モデリングによって、ビデオコンテンツの流動的な性質を表現および推論するモデルの能力が著しく向上することを示す。
関連論文リスト
- DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。