論文の概要: Dynamic Reflections: Probing Video Representations with Text Alignment
- arxiv url: http://arxiv.org/abs/2511.02767v1
- Date: Tue, 04 Nov 2025 17:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.128807
- Title: Dynamic Reflections: Probing Video Representations with Text Alignment
- Title(参考訳): ダイナミックリフレクション:テキストアライメントによるビデオ表現の提案
- Authors: Tyler Zhu, Tengda Han, Leonidas Guibas, Viorica Pătrăucean, Maks Ovsjanikov,
- Abstract要約: クロスモーダルアライメントは、テスト時に提供されるビジュアル(静的画像対マルチフレームビデオ)とテキスト(単一キャプション対コレクション)の両方の豊かさに依存します。
本研究では、この挙動を捉え、経験的観測に対して顕著な予測力を示すパラメトリックテストタイムスケーリング法を提案する。
- 参考スコア(独自算出の注目度): 36.66874523368293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The alignment of representations from different modalities has recently been shown to provide insights on the structural similarities and downstream capabilities of different encoders across diverse data types. While significant progress has been made in aligning images with text, the temporal nature of video data remains largely unexplored in this context. In this work, we conduct the first comprehensive study of video-text representation alignment, probing the capabilities of modern video and language encoders. Our findings reveal several key insights. First, we demonstrate that cross-modal alignment highly depends on the richness of both visual (static images vs. multi-frame videos) and text (single caption vs. a collection) data provided at test time, especially when using state-of-the-art video encoders. We propose parametric test-time scaling laws that capture this behavior and show remarkable predictive power against empirical observations. Secondly, we investigate the correlation between semantic alignment and performance on both semantic and non-semantic downstream tasks, providing initial evidence that strong alignment against text encoders may be linked to general-purpose video representation and understanding. Finally, we correlate temporal reasoning with cross-modal alignment providing a challenging test-bed for vision and language models. Overall, our work introduces video-text alignment as an informative zero-shot way to probe the representation power of different encoders for spatio-temporal data. Project page can be found at https://video-prh.github.io/
- Abstract(参考訳): 異なるモダリティからの表現のアライメントは、様々なデータ型にまたがる異なるエンコーダの構造的類似性と下流機能に関する洞察を提供するために、最近示されている。
画像とテキストの整合性には大きな進歩があったが、ビデオデータの時間的性質は、この文脈では明らかに解明されていない。
本研究では,現代ビデオエンコーダと言語エンコーダの能力を検証し,ビデオテキストのアライメントに関する最初の包括的研究を行う。
我々の発見はいくつかの重要な洞察を浮き彫りにした。
まず,テスト時に提供される画像(静止画像対マルチフレームビデオ)とテキスト(単一キャプション対コレクション)データのリッチさ,特に最先端のビデオエンコーダを使用する場合の相互アライメントが重要であることを示す。
本研究では、この挙動を捉え、経験的観測に対して顕著な予測力を示すパラメトリックテストタイムスケーリング法を提案する。
次に,意味的および非意味的下流タスクにおける意味的アライメントと性能の相関について検討し,テキストエンコーダに対する強いアライメントが汎用的な映像表現と理解に結びついていることを示す。
最後に、時間的推論とクロスモーダルアライメントを関連付け、視覚と言語モデルに挑戦的なテストベッドを提供する。
全体として、ビデオテキストアライメントは、時空間データに対する異なるエンコーダの表現力を調査するための情報的ゼロショット方式として導入されている。
プロジェクトページはhttps://video-prh.github.io/にある。
関連論文リスト
- VidText: Towards Comprehensive Evaluation for Video Text Understanding [56.121054697977115]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - HANet: Hierarchical Alignment Networks for Video-Text Retrieval [15.91922397215452]
ビデオテキスト検索は視覚言語理解において重要な課題である。
現在のほとんどの研究は、ビデオレベルの埋め込みとテキストレベルの埋め込みに基づいて、ビデオテキストの類似性を単純に測定している。
本稿では,階層型アライメントネットワーク(HANet)を提案する。
論文 参考訳(メタデータ) (2021-07-26T09:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。