論文の概要: Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2505.12499v2
- Date: Tue, 20 May 2025 07:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.430586
- Title: Contrastive Alignment with Semantic Gap-Aware Corrections in Text-Video Retrieval
- Title(参考訳): テキストビデオ検索における意味的ギャップ認識補正との対比アライメント
- Authors: Jian Xiao, Zijie Song, Jialong Hu, Hao Cheng, Zhenzhen Hu, Jia Li, Richang Hong,
- Abstract要約: Gap-Aware Retrievalフレームワークは、テキストt_iとビデオv_jの間で学習可能な、ペア固有のインクリメントDelta_ijを導入している。
GAREは、アライメントの正確さと頑健さをノイズ管理に継続的に改善する。
- 参考スコア(独自算出の注目度): 39.65722543824425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-video retrieval have been largely driven by contrastive learning frameworks. However, existing methods overlook a key source of optimization tension: the separation between text and video distributions in the representation space (referred to as the modality gap), and the prevalence of false negatives in batch sampling. These factors lead to conflicting gradients under the InfoNCE loss, impeding stable alignment. To mitigate this, we propose GARE, a Gap-Aware Retrieval framework that introduces a learnable, pair-specific increment Delta_ij between text t_i and video v_j to offload the tension from the global anchor representation. We first derive the ideal form of Delta_ij via a coupled multivariate first-order Taylor approximation of the InfoNCE loss under a trust-region constraint, revealing it as a mechanism for resolving gradient conflicts by guiding updates along a locally optimal descent direction. Due to the high cost of directly computing Delta_ij, we introduce a lightweight neural module conditioned on the semantic gap between each video-text pair, enabling structure-aware correction guided by gradient supervision. To further stabilize learning and promote interpretability, we regularize Delta using three components: a trust-region constraint to prevent oscillation, a directional diversity term to promote semantic coverage, and an information bottleneck to limit redundancy. Experiments across four retrieval benchmarks show that GARE consistently improves alignment accuracy and robustness to noisy supervision, confirming the effectiveness of gap-aware tension mitigation.
- Abstract(参考訳): テキストビデオ検索の最近の進歩は、主に対照的な学習フレームワークによって引き起こされている。
しかし、既存の手法では、表現空間におけるテキストとビデオの分配(モダリティギャップと呼ばれる)の分離と、バッチサンプリングにおける偽陰性の頻度という、最適化の緊張の重要な源を見落としている。
これらの要因はInfoNCEの損失の下での勾配の矛盾を招き、安定したアライメントを妨げる。
これを軽減するために,Gap-Aware RetrievalフレームワークであるGAREを提案する。このフレームワークでは,テキストt_iとビデオv_jの間に,学習可能な,ペア固有のインクリメントDelta_ijを導入して,グローバルアンカー表現からテンションをオフロードする。
まず、信頼領域制約の下でInfoNCE損失のテイラー近似を結合した多変量1次近似を用いてDelta_ijの理想形式を導出し、局所最適降下方向に沿って更新を導くことで勾配競合を解決するメカニズムとして明らかにした。
Delta_ijを直接計算するコストが高いため、各ビデオテキストペア間のセマンティックギャップを条件とした軽量なニューラルモジュールを導入し、勾配監視による構造認識補正を可能にする。
さらに学習の安定化と解釈可能性の向上を目的として,振動防止のための信頼領域制約,意味的カバレッジを促進する指向性多様性項,冗長性を制限する情報ボトルネックという3つのコンポーネントを用いてDeltaを正規化する。
4つのベンチマークで実験したところ、GAREはアライメントの正確さと頑健さをノイズの多い監視に継続的に改善し、ギャップ対応の緊張緩和の有効性を確認している。
関連論文リスト
- Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation [11.195959019678314]
整合性学習は、半教師付き医療画像セグメンテーションにおいて、ラベルのないデータに取り組むための中心的な戦略である。
本稿では,上記の課題を解決するための適応的双方向変位法を提案する。
論文 参考訳(メタデータ) (2024-05-01T08:17:43Z) - Align, Minimize and Diversify: A Source-Free Unsupervised Domain Adaptation Method for Handwritten Text Recognition [11.080302144256164]
Align, Minimize and Diversify (AMD) は、手書き文字認識(HTR)のための非教師なし領域適応手法である。
本手法は,3つの異なる正規化項を組み込むことで,適応中のソースデータの再検討の必要性を明確に排除する。
いくつかのベンチマークによる実験の結果、AMDの有効性とロバスト性を示し、HTRにおけるDA法よりも競争力があり、しばしば優れていた。
論文 参考訳(メタデータ) (2024-04-28T17:50:58Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。