論文の概要: Cross-Modal Retrieval with Cauchy-Schwarz Divergence
- arxiv url: http://arxiv.org/abs/2509.21339v1
- Date: Mon, 15 Sep 2025 08:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.748785
- Title: Cross-Modal Retrieval with Cauchy-Schwarz Divergence
- Title(参考訳): Cauchy-Schwarz の分岐によるクロスモーダル検索
- Authors: Jiahao Zhang, Wenzhe Yin, Shujian Yu,
- Abstract要約: クロスモーダル検索では、不均一なデータ型を堅牢にアライメントする必要がある。
既存の手法の多くは、Kullback-Leiblerの発散のような分布アライメント技術に依存している。
本稿では、トレーニング安定性と検索性能の両方を改善するハイパーパラメータフリー尺度であるCauchy-Schwarz(CS)の発散について紹介する。
- 参考スコア(独自算出の注目度): 26.94915416778522
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective cross-modal retrieval requires robust alignment of heterogeneous data types. Most existing methods focus on bi-modal retrieval tasks and rely on distributional alignment techniques such as Kullback-Leibler divergence, Maximum Mean Discrepancy, and correlation alignment. However, these methods often suffer from critical limitations, including numerical instability, sensitivity to hyperparameters, and their inability to capture the full structure of the underlying distributions. In this paper, we introduce the Cauchy-Schwarz (CS) divergence, a hyperparameter-free measure that improves both training stability and retrieval performance. We further propose a novel Generalized CS (GCS) divergence inspired by H\"older's inequality. This extension enables direct alignment of three or more modalities within a unified mathematical framework through a bidirectional circular comparison scheme, eliminating the need for exhaustive pairwise comparisons. Extensive experiments on six benchmark datasets demonstrate the effectiveness of our method in both bi-modal and tri-modal retrieval tasks. The code of our CS/GCS divergence is publicly available at https://github.com/JiahaoZhang666/CSD.
- Abstract(参考訳): 効果的なクロスモーダル検索には、不均一なデータ型を堅牢にアライメントする必要がある。
既存の手法はバイモーダル検索に重点を置いており、Kulback-Leiblerの発散、最大平均離散化、相関アライメントといった分布アライメント技術に依存している。
しかしながら、これらの手法は、数値的不安定性、ハイパーパラメータに対する感度、基礎となる分布の完全な構造を捉えることができないといった限界に悩まされることが多い。
本稿では、トレーニング安定性と検索性能の両方を改善するハイパーパラメータフリー尺度であるCauchy-Schwarz(CS)の発散について紹介する。
さらに,H\"olderの不等式にインスパイアされた新しい一般化CS(GCS)の発散を提案する。
この拡張により、双方向の円形比較スキームを通じて、統一された数学的枠組み内の3つ以上のモダリティを直接アライメントすることができ、徹底的なペアワイズ比較の必要性を排除できる。
6つのベンチマークデータセットに対する大規模な実験により,2モーダルおよび3モーダルの検索タスクにおいて,本手法の有効性が示された。
CS/GCS分散のコードはhttps://github.com/JiahaoZhang666/CSDで公開されています。
関連論文リスト
- SIM-CoT: Supervised Implicit Chain-of-Thought [108.30049193668083]
Implicit Chain-of-Thought(CoT)メソッドは、大規模言語モデルにおける明示的なCoT推論に代わるトークン効率の代替手段を提供する。
暗黙的なCoTの計算予算をスケールする際の中核的な不安定性問題を特定する。
そこで我々はSIM-CoTを提案する。SIM-CoTは,遅延推論空間を安定化・拡張するためのステップレベルの監視を実現するモジュールである。
論文 参考訳(メタデータ) (2025-09-24T17:01:32Z) - Riemannian Change Point Detection on Manifolds with Robust Centroid Estimation [16.66604949258699]
ストリーミング時系列データにおける非パラメトリックな変化点検出は、信号処理における長年の課題である。
1つの顕著な戦略は、時系列の質量の中心における急激な変化を監視することである。
論文 参考訳(メタデータ) (2025-08-25T14:00:17Z) - VFOG: Variance-Reduced Fast Optimistic Gradient Methods for a Class of Nonmonotone Generalized Equations [3.6997773420183866]
我々は,Nesterovの加速度と分散還元技術を組み合わせた,新しい楽観的勾配型アルゴリズムフレームワークを開発した。
この手法はリプシッツ連続性の下で残余の平方ノルムを期待して$mathcalO (1/k2)$収束率を達成することを示す。
提案手法の反復列は根本問題の解にほぼ確実に収束することを示す。
論文 参考訳(メタデータ) (2025-08-22T20:46:29Z) - Rectified Diffusion Guidance for Conditional Generation [94.83538269086613]
CFGの背後にある理論を再検討し、不適切な組合せ係数(textiti.e.)が生成分布を期待的にシフトさせることを厳密に確認する。
提案手法は, 強みを考慮すれば, textbftextitform ソリューションが有効であることを示す。
実世界のデータに関する実証的な証拠は、我々の設計と既存の最先端拡散モデルとの整合性を実証している。
論文 参考訳(メタデータ) (2024-10-24T13:41:32Z) - Robust Barycenter Estimation using Semi-Unbalanced Neural Optimal Transport [84.51977664336056]
本研究では、ロバストな連続バリセンタを推定するための新しいスケーラブルなアプローチを提案する。
提案手法は min-max 最適化問題であり,一般的なコスト関数に適用可能である。
論文 参考訳(メタデータ) (2024-10-04T23:27:33Z) - Variance-Reducing Couplings for Random Features [57.73648780299374]
ランダム機能(RF)は、機械学習においてカーネルメソッドをスケールアップする一般的なテクニックである。
ユークリッド空間と離散入力空間の両方で定義されるRFを改善するための結合を求める。
パラダイムとしての分散還元の利点と限界について、驚くほどの結論に達した。
論文 参考訳(メタデータ) (2024-05-26T12:25:09Z) - Scaling up Stochastic Gradient Descent for Non-convex Optimisation [5.908471365011942]
本稿では,共有並列計算問題に対する新しいアプローチを提案する。
2つの戦略を統一されたフレームワークに組み合わせることで、DPSGDはより良い取引計算フレームワークになります。
深層学習(DRL)問題と深層学習(DRL)問題(アドバンテージアクター - A2C)についてDPSGDにより潜在ゲインを達成できる。
論文 参考訳(メタデータ) (2022-10-06T13:06:08Z) - Cycle Consistent Probability Divergences Across Different Spaces [38.43511529063335]
確率分布の相違は、統計的推測と機械学習の核心にある。
本研究は, 異方性, 異方性, 異方性, 異なる空間上の分布をマッチングするための, アンバランスなモンジュ最適輸送定式化を提案する。
論文 参考訳(メタデータ) (2021-11-22T16:35:58Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Stochastic Gradient Descent-Ascent and Consensus Optimization for Smooth
Games: Convergence Analysis under Expected Co-coercivity [49.66890309455787]
本稿では,SGDA と SCO の最終的な収束保証として,期待されるコヒーレンシティ条件を導入し,その利点を説明する。
定常的なステップサイズを用いた場合、両手法の線形収束性を解の近傍に証明する。
我々の収束保証は任意のサンプリングパラダイムの下で保たれ、ミニバッチの複雑さに関する洞察を与える。
論文 参考訳(メタデータ) (2021-06-30T18:32:46Z) - The Heavy-Tail Phenomenon in SGD [7.366405857677226]
最小損失のHessianの構造に依存すると、SGDの反復はエンフェビーテールの定常分布に収束する。
深層学習におけるSGDの行動に関する知見に分析結果を変換する。
論文 参考訳(メタデータ) (2020-06-08T16:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。