論文の概要: Video Understanding: Through A Temporal Lens
- arxiv url: http://arxiv.org/abs/2602.00683v1
- Date: Sat, 31 Jan 2026 12:01:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.335543
- Title: Video Understanding: Through A Temporal Lens
- Title(参考訳): ビデオ理解:テンポラルレンズで見る
- Authors: Thong Thanh Nguyen,
- Abstract要約: この論文は、映像要素間の時間的関係を利用して映像理解を促進する方法について、中心的な疑問を提起する。
本研究は,(1)大規模視覚言語モデルを用いた自動アノテーションフレームワークと,(2)低データ状態における時間的ダイナミクスを捉えるためのパラメータ効率のよい微調整戦略,(3)高効率な長期ビデオモデリングのためのステートスペースレイヤの統合,(4)動きと映像の微妙な関係を明示的にモデル化する新しいコントラスト学習フレームワークを提示する。
- 参考スコア(独自算出の注目度): 5.153774021264937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This thesis explores the central question of how to leverage temporal relations among video elements to advance video understanding. Addressing the limitations of existing methods, the work presents a five-fold contribution: (1) an automatic annotation framework that utilizes large vision-language models and a noise-robust contrastive learning objective with a subtractive angular margin; (2) a parameter-efficient fine-tuning strategy using "recurrent adapters" to capture temporal dynamics in low-data regimes; (3) the integration of State Space Layers (SSL) for efficient long-form video modeling, supported by the introduction of two new long-term benchmarks for egocentric and feature-length content; (4) a novel contrastive learning framework designed to explicitly model fine-grained relations between motions and video moments; and (5) a comprehensive empirical study on Large Vision-Language Models (LVLMs) that identifies the visual-language interface as a bottleneck for temporal reasoning, leading to a new "temporal-oriented recipe" for upscaled video understanding. Collectively, these contributions demonstrate that explicit temporal modeling significantly enhances a model's ability to represent and reason about the fluid nature of video content.
- Abstract(参考訳): この論文は、映像要素間の時間的関係を利用して映像理解を促進する方法について、中心的な疑問を提起する。
既存の手法の限界に対処するため,(1)大規模視覚言語モデルと雑音ロスの対比学習目標を用いた自動アノテーションフレームワーク,(2)低データ状態における時間的ダイナミックスを捉えるために"リカレントアダプタ"を用いたパラメータ効率のよい微調整戦略,(3)効率的な長大なビデオモデリングのためのステートスペースレイヤ(SSL)の統合,(4)動きと映像の微妙な関係を明示的にモデル化する新しいコントラスト学習フレームワーク,(5)大規模視覚言語モデル(LLM)に関する総合的な実証的研究,などが提案されている。
これらのコントリビューションは、明示的な時間的モデリングによって、ビデオコンテンツの流動的な性質を表現および推論するモデルの能力が著しく向上することを示す。
関連論文リスト
- Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。
提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2025-10-04T21:48:40Z) - Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z) - DVLTA-VQA: Decoupled Vision-Language Modeling with Text-Guided Adaptation for Blind Video Quality Assessment [17.85550556489256]
本稿では,Blind Video Quality Assessment (DVLTA-VQA) のためのテキストガイド適応を用いたデカップリング型視覚言語モデルを提案する。
ビデオベーステンポラルCLIPモジュールは、時間的ダイナミクスを明示的にモデル化し、背側ストリームと整合して運動知覚を高める。
時間的コンテキストモジュールは、フレーム間の依存関係を洗練し、モーションモデリングをさらに改善するために開発されている。
最後に、空間情報と時間情報のより効果的な統合を可能にするために、テキスト誘導型適応融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-16T03:20:28Z) - Exploring the Role of Explicit Temporal Modeling in Multimodal Large Language Models for Video Understanding [23.477954901326978]
既存のアプローチでは、デコーダのみに依存する暗黙の時間的モデリングと、補助的な時間的エンコーダを使用する明示的な時間的モデリングが採用されている。
適応性のある時間場とトークン圧縮比を持つフレキシブルな時間的モデリングを実現するための明示的時空間(STE)を提案する。
本研究は、ビデオMLLMの進行に有効な洞察を提供する、明示的な時間的モデリングの重要な役割を強調した。
論文 参考訳(メタデータ) (2025-01-28T08:30:58Z) - Temporal Contrastive Learning for Video Temporal Reasoning in Large Vision-Language Models [44.99833362998488]
TSADP(Temporal Semantic Alignment via Dynamic Prompting)は、時間的推論能力を高める新しいフレームワークである。
VidSitu データセット上での TSADP の評価を行った。
我々の分析は、TSADPの堅牢性、効率性、実用性を強調し、ビデオ言語理解の分野における一歩を踏み出した。
論文 参考訳(メタデータ) (2024-12-16T02:37:58Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge
Transferring [82.84513669453744]
画像テキスト事前訓練モデル(例えばCLIP)は、大規模な画像テキストデータペアから学んだ、印象的な汎用マルチモーダル知識を示している。
画像間知識伝達の文脈における時間的モデリングを再考する。
本稿では,CLIPモデルを多様なビデオタスクに拡張する簡易かつ効果的な時間的モデリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-26T14:12:02Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Enhancing Self-supervised Video Representation Learning via Multi-level
Feature Optimization [30.670109727802494]
本稿では,学習ビデオ表現の一般化と時間的モデリング能力を改善するための多段階特徴最適化フレームワークを提案する。
実験により,グラフ制約と時間的モデリングによるマルチレベル特徴最適化は,映像理解における表現能力を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2021-08-04T17:16:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。