論文の概要: T2VParser: Adaptive Decomposition Tokens for Partial Alignment in Text to Video Retrieval
- arxiv url: http://arxiv.org/abs/2507.20518v1
- Date: Mon, 28 Jul 2025 04:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.857797
- Title: T2VParser: Adaptive Decomposition Tokens for Partial Alignment in Text to Video Retrieval
- Title(参考訳): T2VParser: テキストからビデオ検索への部分的アライメントのための適応分解トークン
- Authors: Yili Li, Gang Xiong, Gaopeng Gou, Xiangyan Qu, Jiamin Zhuang, Zhen Li, Junzheng Shi,
- Abstract要約: 適応分解トークン(Adaptive Decomposition Tokens)は,モダリティ間で共有される学習可能なトークンの集合からなる。
T2Vの目標は、事前訓練されたモデルの知識を維持しながら、テキストとビデオの正確なアライメントを強調することである。
実験により,T2Vは効果的なクロスモーダルコンテンツの分解によって正確な部分的アライメントを実現することが示された。
- 参考スコア(独自算出の注目度): 5.246077644648122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video retrieval essentially aims to train models to align visual content with textual descriptions accurately. Due to the impressive general multimodal knowledge demonstrated by image-text pretrained models such as CLIP, existing work has primarily focused on extending CLIP knowledge for video-text tasks. However, videos typically contain richer information than images. In current video-text datasets, textual descriptions can only reflect a portion of the video content, leading to partial misalignment in video-text matching. Therefore, directly aligning text representations with video representations can result in incorrect supervision, ignoring the inequivalence of information. In this work, we propose T2VParser to extract multiview semantic representations from text and video, achieving adaptive semantic alignment rather than aligning the entire representation. To extract corresponding representations from different modalities, we introduce Adaptive Decomposition Tokens, which consist of a set of learnable tokens shared across modalities. The goal of T2VParser is to emphasize precise alignment between text and video while retaining the knowledge of pretrained models. Experimental results demonstrate that T2VParser achieves accurate partial alignment through effective cross-modal content decomposition. The code is available at https://github.com/Lilidamowang/T2VParser.
- Abstract(参考訳): テキスト・トゥ・ビデオ検索は基本的に、視覚コンテンツをテキスト記述と正確に整合させるモデルを訓練することを目的としている。
CLIPのような画像テキスト事前訓練モデルによって実証された印象的な一般的なマルチモーダル知識のため、既存の研究は主にビデオテキストタスクのためのCLIP知識の拡張に焦点を当てている。
しかし、ビデオは一般的に画像よりもリッチな情報を含んでいる。
現在のビデオテキストデータセットでは、テキスト記述はビデオコンテンツの一部しか反映できないため、ビデオテキストマッチングにおける部分的なミスアライメントが生じる。
したがって、テキスト表現とビデオ表現を直接整合させることは、情報の不平等を無視して、誤った監督をもたらす可能性がある。
本研究では,テキストとビデオから多視点意味表現を抽出するT2VParserを提案する。
異なるモダリティから対応する表現を抽出するために,各モダリティ間で共有される学習可能なトークンの集合からなる適応分解トークンを導入する。
T2VParserの目標は、事前訓練されたモデルの知識を維持しながら、テキストとビデオの正確なアライメントを強調することである。
実験結果から,T2VParserは効果的なクロスモーダルコンテンツ分解によって正確な部分的アライメントを実現することが示された。
コードはhttps://github.com/Lilidamowang/T2VParser.comで入手できる。
関連論文リスト
- VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Weakly Supervised Video Representation Learning with Unaligned Text for
Sequential Videos [39.42509966219001]
本稿では,時間レベルのテキスト・ビデオの正確なアライメントが提供されないような逐次的ビデオ理解について検討する。
我々は、ビデオ表現のためのフレームレベルの特徴を集約するためにトランスフォーマーを使用し、事前訓練されたテキストエンコーダを使用して、各アクションとビデオ全体に対応するテキストをエンコードする。
ビデオシーケンス検証とテキスト・ツー・ビデオマッチングの実験により,本手法がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2023-03-22T08:13:25Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。