論文の概要: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2506.07471v1
- Date: Mon, 09 Jun 2025 06:44:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.832345
- Title: Ambiguity-Restrained Text-Video Representation Learning for Partially Relevant Video Retrieval
- Title(参考訳): 部分関連ビデオ検索のためのあいまいさ制約付きテキスト映像表現学習
- Authors: CH Cho, WJ Moon, W Jun, MS Jung, JP Heo,
- Abstract要約: 部分関連ビデオ検索(PRVR)は、特定のセグメントが所定のテキストクエリに関連するビデオを取得することを目的としている。
テキストとビデオの内容のあいまいさは、その概念的スコープに基づいて指摘する。
この曖昧さをモデル学習プロセスに組み込んだフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Partially Relevant Video Retrieval~(PRVR) aims to retrieve a video where a specific segment is relevant to a given text query. Typical training processes of PRVR assume a one-to-one relationship where each text query is relevant to only one video. However, we point out the inherent ambiguity between text and video content based on their conceptual scope and propose a framework that incorporates this ambiguity into the model learning process. Specifically, we propose Ambiguity-Restrained representation Learning~(ARL) to address ambiguous text-video pairs. Initially, ARL detects ambiguous pairs based on two criteria: uncertainty and similarity. Uncertainty represents whether instances include commonly shared context across the dataset, while similarity indicates pair-wise semantic overlap. Then, with the detected ambiguous pairs, our ARL hierarchically learns the semantic relationship via multi-positive contrastive learning and dual triplet margin loss. Additionally, we delve into fine-grained relationships within the video instances. Unlike typical training at the text-video level, where pairwise information is provided, we address the inherent ambiguity within frames of the same untrimmed video, which often contains multiple contexts. This allows us to further enhance learning at the text-frame level. Lastly, we propose cross-model ambiguity detection to mitigate the error propagation that occurs when a single model is employed to detect ambiguous pairs for its training. With all components combined, our proposed method demonstrates its effectiveness in PRVR.
- Abstract(参考訳): 部分関連ビデオ検索~(PRVR)は、特定のセグメントが所定のテキストクエリに関連するビデオを取得することを目的としている。
PRVRの典型的なトレーニングプロセスは、各テキストクエリが1つのビデオにのみ関連している1対1の関係を前提としている。
しかし,本研究では,その概念的スコープに基づいて,テキストとビデオコンテンツの本質的なあいまいさを指摘し,この曖昧さをモデル学習プロセスに組み込むフレームワークを提案する。
具体的には、あいまいなテキストとビデオのペアに対処するために、Ambiguity-Restrained representation Learning~(ARL)を提案する。
当初、ARLは不確実性と類似性という2つの基準に基づいて曖昧なペアを検出する。
不確実性は、データセット全体で共通に共有されるコンテキストを含むかどうかを表し、類似性はペアワイドなセマンティックオーバーラップを示している。
そして、検出された曖昧なペアによって、ARLは多陽性のコントラスト学習と二重三重項マージン損失を通じて意味関係を階層的に学習する。
さらに、ビデオインスタンス内のきめ細かい関係についても調べています。
ペアワイズ情報を提供するテキストビデオレベルの一般的なトレーニングとは異なり、同じ未トリミングビデオのフレーム内で固有のあいまいさに対処する。
これにより、テキストフレームレベルでの学習をさらに強化できます。
最後に, モデル間のあいまいさ検出手法を提案し, トレーニングのためのあいまいなペアを検出するために, 単一モデルを用いた場合の誤差伝搬を緩和する。
提案手法は,すべてのコンポーネントを組み合わせることで,PRVRにおける有効性を実証する。
関連論文リスト
- TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval [1.8434042562191815]
本稿では,TC-MGC と呼ばれるテキスト記述型マルチグラインドコントラストフレームワークを提案する。
本モデルでは,単語の重み付けとテキストの重み付けに係わる集約されたフレームとビデオ表現を生成するために,言語ビデオのアテンションブロックを用いる。
実証的に、TC-MGCは複数のテキストビデオ検索ベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2025-04-07T03:33:14Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial
Margin Contrastive Learning [35.404100473539195]
テキストビデオ検索は、関係のないものよりも関連のあるテキストや動画をランク付けすることを目的としている。
最近のコントラスト学習手法は,テキストビデオ検索に有望な結果を示している。
本稿では2つの新しい手法を用いてコントラスト学習を改善する。
論文 参考訳(メタデータ) (2023-09-20T06:08:11Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Support-set bottlenecks for video-text representation learning [131.4161071785107]
ビデオテキスト表現(ノイズコントラスト学習)を学ぶための支配的なパラダイムは厳しすぎる。
本稿では,これらのサンプルを自然に押下する生成モデルを活用することによって,これを緩和する手法を提案する。
提案手法は,MSR-VTT,VATEX,ActivityNet,MSVDにおいて,ビデオ・テキスト・テキスト・ビデオ検索やテキスト・トゥ・ビデオ検索において,他よりも優れていた。
論文 参考訳(メタデータ) (2020-10-06T15:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。