論文の概要: EagleNet: Energy-Aware Fine-Grained Relationship Learning Network for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2603.25267v1
- Date: Thu, 26 Mar 2026 10:05:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.236348
- Title: EagleNet: Energy-Aware Fine-Grained Relationship Learning Network for Text-Video Retrieval
- Title(参考訳): EagleNet: テキスト検索のためのエネルギー対応細粒度関係学習ネットワーク
- Authors: Yuhan Chen, Pengwen Dai, Chuan Wang, Dayan Wu, Xiaochun Cao,
- Abstract要約: エネルギーを考慮した細粒度関係学習ネットワーク(EagleNet)について紹介する。
EagleNetは正確でコンテキスト対応のリッチテキスト埋め込みを生成する。
実験では、MSRVTT、DiDeMo、MSVD、VATEXにまたがるイーグルネットの優位性を実証した。
- 参考スコア(独自算出の注目度): 59.858268313337355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval tasks have seen significant improvements due to the recent development of large-scale vision-language pre-trained models. Traditional methods primarily focus on video representations or cross-modal alignment, while recent works shift toward enriching text expressiveness to better match the rich semantics in videos. However, these methods use only interactions between text and frames/video, and ignore rich interactions among the internal frames within a video, so the final expanded text cannot capture frame contextual information, leading to disparities between text and video. In response, we introduce Energy-Aware Fine-Grained Relationship Learning Network (EagleNet) to generate accurate and context-aware enriched text embeddings. Specifically, the proposed Fine-Grained Relationship Learning mechanism (FRL) first constructs a text-frame graph by the generated text candidates and frames, then learns relationships among texts and frames, which are finally used to aggregate text candidates into an enriched text embedding that incorporates frame contextual information. To further improve fine-grained relationship learning in FRL, we design Energy-Aware Matching (EAM) to model the energy of text-frame interactions and thus accurately capture the distribution of real text-video pairs. Moreover, for more effective cross-modal alignment and stable training, we replace the conventional softmax-based contrastive loss with the sigmoid loss. Extensive experiments have demonstrated the superiority of EagleNet across MSRVTT, DiDeMo, MSVD, and VATEX. Codes are available at https://github.com/draym28/EagleNet.
- Abstract(参考訳): テキストビデオ検索タスクは、近年の大規模視覚言語事前学習モデルの開発により、大幅に改善されている。
従来の手法は主にビデオ表現やクロスモーダルアライメントに重点を置いているが、最近の研究はビデオのリッチなセマンティクスに合うように、テキスト表現の充実にシフトしている。
しかし、これらの手法はテキストとフレーム/ビデオ間のインタラクションのみを使用し、ビデオ内の内部フレーム間のリッチなインタラクションを無視するため、最終的な拡張されたテキストはフレームのコンテキスト情報をキャプチャできないため、テキストとビデオの相違が生じる。
そこで我々はEagleNet(Energy-Aware Fine-Grained Relationship Learning Network)を導入し,高精度でコンテキスト対応のリッチテキスト埋め込みを実現する。
具体的には、提案したファイングラインド関係学習機構(FRL)は、まず生成されたテキスト候補とフレームによってテキストフレームグラフを構築し、次にテキストとフレーム間の関係を学習し、最終的にテキスト候補をフレームコンテキスト情報を含むリッチテキスト埋め込みに集約するために使用される。
FRLにおける微粒な関係学習を改善するため,テキストフレーム間相互作用のエネルギーをモデル化し,実際のテキスト-ビデオ対の分布を正確に把握するためにEAM(Energy-Aware Matching)を設計した。
さらに、より効果的なクロスモーダルアライメントと安定したトレーニングのために、従来のソフトマックスベースのコントラスト損失をシグモイド損失に置き換える。
大規模な実験は、MSRVTT、DiDeMo、MSVD、VATEXにまたがるイーグルネットの優位性を実証している。
コードはhttps://github.com/draym28/EagleNetで入手できる。
関連論文リスト
- Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval [90.72791786676753]
Video-ColBERTは、クエリとビデオ間の微粒な類似性評価のためのシンプルで効率的なメカニズムを導入している。
このインタラクションとトレーニングのパラダイムは、ビデオコンテンツをエンコードするための、強い個人的かつ互換性のある表現につながることが分かっています。
これらの表現は、他のバイエンコーダ法と比較して、一般的なテキスト・ビデオ検索ベンチマークのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-03-24T17:51:29Z) - VTD-CLIP: Video-to-Text Discretization via Prompting CLIP [44.51452778561945]
視覚言語モデルは視覚的および言語的理解を橋渡しし、ビデオ認識タスクに強力であることが証明されている。
既存のアプローチは、主にパラメータ効率の良い画像テキスト事前学習モデルの微調整に依存している。
本稿では,時間的モデリングの不十分さによる限定的な解釈可能性や一般化の低さに対処する,ビデオからテキストへの離散化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T07:27:19Z) - NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。
負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-18T15:27:06Z) - SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。
まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。
第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文 参考訳(メタデータ) (2024-04-22T10:23:59Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Contrastive Video-Language Learning with Fine-grained Frame Sampling [54.542962813921214]
FineCoは、ビデオフレーム上で操作する微妙なコントラスト対象で、ビデオと言語表現をよりよく学習するアプローチである。
テキストと意味的に等価なフレームを選択することで、ビデオの削除を支援し、クロスモーダル対応を改善する。
論文 参考訳(メタデータ) (2022-10-10T22:48:08Z) - X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval [26.581384985173116]
テキスト・ビデオ検索では,テキストとビデオの相互類似性を学習することが目的である。
本稿では,テキストとビデオのフレーム間の関係を理由として,X-Poolと呼ばれるモーダルなアテンションモデルを提案する。
論文 参考訳(メタデータ) (2022-03-28T20:47:37Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。