論文の概要: Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2505.12499v5
- Date: Thu, 23 Oct 2025 10:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:06.020593
- Title: Rebalancing Contrastive Alignment with Bottlenecked Semantic Increments in Text-Video Retrieval
- Title(参考訳): テキストビデオ検索におけるボトルネック付きセマンティックインクリメントによるコントラストアライメントの相違
- Authors: Jian Xiao, Zijie Song, Jialong Hu, Hao Cheng, Jia Li, Zhenzhen Hu, Richang Hong,
- Abstract要約: Gap-Aware Retrievalフレームワークは、テキスト$t_i$とビデオ$v_j$の間で、学習可能なペア固有のインクリメント$Delta_ij$を導入している。
セマンティックギャップに条件付けされた軽量なニューラルモジュールは、構造認識の修正のためにバッチ間で増分する。
4つのベンチマークの実験は、GAREが一貫してアライメント精度とロバスト性を改善することを示した。
- 参考スコア(独自算出の注目度): 48.85977777168096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in text-video retrieval has been largely driven by contrastive learning. However, existing methods often overlook the effect of the modality gap, which causes anchor representations to undergo in-place optimization (i.e., optimization tension) that limits their alignment capacity. Moreover, noisy hard negatives further distort the semantics of anchors. To address these issues, we propose GARE, a Gap-Aware Retrieval framework that introduces a learnable, pair-specific increment $\Delta_{ij}$ between text $t_i$ and video $v_j$, redistributing gradients to relieve optimization tension and absorb noise. We derive $\Delta_{ij}$ via a multivariate first-order Taylor expansion of the InfoNCE loss under a trust-region constraint, showing that it guides updates along locally consistent descent directions. A lightweight neural module conditioned on the semantic gap couples increments across batches for structure-aware correction. Furthermore, we regularize $\Delta$ through a variational information bottleneck with relaxed compression, enhancing stability and semantic consistency. Experiments on four benchmarks demonstrate that GARE consistently improves alignment accuracy and robustness, validating the effectiveness of gap-aware tension mitigation. Code is available at https://github.com/musicman217/GARE-text-video-retrieval.
- Abstract(参考訳): テキストビデオ検索の最近の進歩は、主に対照的な学習によって引き起こされている。
しかし、既存の手法は、しばしばモダリティギャップの影響を見落とし、アンカー表現がアライメント能力を制限する場所最適化(すなわち最適化テンション)を行う。
さらに、ノイズの多い強陰性はアンカーの意味をさらに歪ませる。
これらの問題に対処するために,Gap-Aware RetrievalフレームワークであるGAREを提案する。このフレームワークは,テキスト$t_i$とビデオ$v_j$の間で学習可能な,ペア固有のインクリメント$\Delta_{ij}$を導入し,最適化の緊張を緩和し,ノイズを吸収する勾配を再分配する。
我々は、信頼領域制約の下でInfoNCE損失の多変量1次テイラー拡張を通じて$\Delta_{ij}$を導出し、局所的に一貫した降下方向に沿って更新を導くことを示す。
セマンティックギャップに条件付けされた軽量なニューラルモジュールは、構造認識の修正のためにバッチ間で増分する。
さらに、ゆるやかな圧縮、安定性の向上、セマンティック一貫性を備えた変動情報ボトルネックによって$\Delta$を正規化します。
4つのベンチマーク実験により、GAREはアライメント精度とロバスト性を一貫して改善し、ギャップ対応の緊張緩和の有効性を検証した。
コードはhttps://github.com/musicman217/GARE-text-video-retrieval.comで公開されている。
関連論文リスト
- TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。
以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。
TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文 参考訳(メタデータ) (2025-08-04T05:03:35Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Global Variational Inference Enhanced Robust Domain Adaptation [7.414646586981638]
本稿では,構造を意識したクロスドメインアライメントを実現するために,変分推論による連続的,クラス条件のグローバルな事前学習フレームワークを提案する。
GVI-DAは、潜在特徴再構成によるドメインギャップを最小化し、ランダムサンプリングによるグローバルコードブック学習を用いて後部崩壊を緩和する。
低信頼の擬似ラベルを捨て、信頼性の高いターゲットドメインサンプルを生成することにより、ロバスト性をさらに向上する。
論文 参考訳(メタデータ) (2025-07-04T04:43:23Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - Self-Supervised Contrastive Learning for Videos using Differentiable Local Alignment [3.2873782624127834]
時間的映像系列の整列に基づく自己教師付き表現学習法を提案する。
局所的アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント(LAC)・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・
学習した表現は、既存の行動認識タスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-06T20:32:53Z) - Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation [11.195959019678314]
整合性学習は、半教師付き医療画像セグメンテーションにおいて、ラベルのないデータに取り組むための中心的な戦略である。
本稿では,上記の課題を解決するための適応的双方向変位法を提案する。
論文 参考訳(メタデータ) (2024-05-01T08:17:43Z) - Align, Minimize and Diversify: A Source-Free Unsupervised Domain Adaptation Method for Handwritten Text Recognition [11.080302144256164]
Align, Minimize and Diversify (AMD) は、手書き文字認識(HTR)のための非教師なし領域適応手法である。
本手法は,3つの異なる正規化項を組み込むことで,適応中のソースデータの再検討の必要性を明確に排除する。
いくつかのベンチマークによる実験の結果、AMDの有効性とロバスト性を示し、HTRにおけるDA法よりも競争力があり、しばしば優れていた。
論文 参考訳(メタデータ) (2024-04-28T17:50:58Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。