論文の概要: GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning
- arxiv url: http://arxiv.org/abs/2410.15266v1
- Date: Sun, 20 Oct 2024 03:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:16:56.632808
- Title: GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning
- Title(参考訳): GSSF:Deep-Modal Metric Learningのための汎用構造スパース関数
- Authors: Haiwen Diao, Ying Zhang, Shang Gao, Jiawen Zhu, Long Chen, Huchuan Lu,
- Abstract要約: ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
- 参考スコア(独自算出の注目度): 51.677086019209554
- License:
- Abstract: Cross-modal metric learning is a prominent research topic that bridges the semantic heterogeneity between vision and language. Existing methods frequently utilize simple cosine or complex distance metrics to transform the pairwise features into a similarity score, which suffers from an inadequate or inefficient capability for distance measurements. Consequently, we propose a Generalized Structural Sparse Function to dynamically capture thorough and powerful relationships across modalities for pair-wise similarity learning while remaining concise but efficient. Specifically, the distance metric delicately encapsulates two formats of diagonal and block-diagonal terms, automatically distinguishing and highlighting the cross-channel relevancy and dependency inside a structured and organized topology. Hence, it thereby empowers itself to adapt to the optimal matching patterns between the paired features and reaches a sweet spot between model complexity and capability. Extensive experiments on cross-modal and two extra uni-modal retrieval tasks (image-text retrieval, person re-identification, fine-grained image retrieval) have validated its superiority and flexibility over various popular retrieval frameworks. More importantly, we further discover that it can be seamlessly incorporated into multiple application scenarios, and demonstrates promising prospects from Attention Mechanism to Knowledge Distillation in a plug-and-play manner. Our code is publicly available at: https://github.com/Paranioar/GSSF.
- Abstract(参考訳): クロスモーダル計量学習は、視覚と言語の間の意味的不均一性を橋渡しする顕著な研究トピックである。
既存の手法では、単純なコサインや複雑な距離のメトリクスを使って、ペアの特徴を類似度スコアに変換するが、これは距離測定の不十分さや非効率な能力に悩まされる。
その結果,汎用構造スパース関数を提案し,コンパクトだが効率的でありながらペアワイドな類似性学習のためのモダリティ間の網羅的かつ強力な関係を動的に捉える。
具体的には、距離メートル法は、2種類の対角線とブロック対角線を微妙にカプセル化し、構造的および組織化されたトポロジー内のチャネル間の関連性と依存性を自動的に識別し強調する。
これにより、ペア化された特徴間の最適なマッチングパターンに適応し、モデルの複雑さと能力の間のスイートスポットに到達することができる。
クロスモーダルと2つの一様検索タスク(画像テキスト検索、人物再識別、きめ細かい画像検索)の広範な実験により、様々な検索フレームワークよりも優位性と柔軟性が検証された。
さらに重要なことは、複数のアプリケーションシナリオにシームレスに組み込むことができ、プラグイン・アンド・プレイ方式で、注意メカニズムから知識蒸留への将来性を示すことである。
私たちのコードは、https://github.com/Paranioar/GSSF.comで公開されています。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - On the Versatile Uses of Partial Distance Correlation in Deep Learning [47.11577420740119]
本稿では、異なる次元の特徴空間間の相関を評価するために設計された距離相関(および部分変量)と呼ばれる統計学から(広く知られていない)再検討する。
本稿では,大規模モデルへの展開に必要なステップについて述べる。
これは、ある深いモデルw.r.t.を条件付けすること、非絡み合った表現を学習すること、および敵の攻撃に対してより堅牢な多様なモデルを最適化することなど、驚くべき一連のアプリケーションへの扉を開く。
論文 参考訳(メタデータ) (2022-07-20T06:36:11Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Symbiotic Adversarial Learning for Attribute-based Person Search [86.7506832053208]
本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
論文 参考訳(メタデータ) (2020-07-19T07:24:45Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。