論文の概要: GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning
- arxiv url: http://arxiv.org/abs/2410.15266v1
- Date: Sun, 20 Oct 2024 03:45:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:38.001776
- Title: GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning
- Title(参考訳): GSSF:Deep-Modal Metric Learningのための汎用構造スパース関数
- Authors: Haiwen Diao, Ying Zhang, Shang Gao, Jiawen Zhu, Long Chen, Huchuan Lu,
- Abstract要約: ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
- 参考スコア(独自算出の注目度): 51.677086019209554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal metric learning is a prominent research topic that bridges the semantic heterogeneity between vision and language. Existing methods frequently utilize simple cosine or complex distance metrics to transform the pairwise features into a similarity score, which suffers from an inadequate or inefficient capability for distance measurements. Consequently, we propose a Generalized Structural Sparse Function to dynamically capture thorough and powerful relationships across modalities for pair-wise similarity learning while remaining concise but efficient. Specifically, the distance metric delicately encapsulates two formats of diagonal and block-diagonal terms, automatically distinguishing and highlighting the cross-channel relevancy and dependency inside a structured and organized topology. Hence, it thereby empowers itself to adapt to the optimal matching patterns between the paired features and reaches a sweet spot between model complexity and capability. Extensive experiments on cross-modal and two extra uni-modal retrieval tasks (image-text retrieval, person re-identification, fine-grained image retrieval) have validated its superiority and flexibility over various popular retrieval frameworks. More importantly, we further discover that it can be seamlessly incorporated into multiple application scenarios, and demonstrates promising prospects from Attention Mechanism to Knowledge Distillation in a plug-and-play manner. Our code is publicly available at: https://github.com/Paranioar/GSSF.
- Abstract(参考訳): クロスモーダル計量学習は、視覚と言語の間の意味的不均一性を橋渡しする顕著な研究トピックである。
既存の手法では、単純なコサインや複雑な距離のメトリクスを使って、ペアの特徴を類似度スコアに変換するが、これは距離測定の不十分さや非効率な能力に悩まされる。
その結果,汎用構造スパース関数を提案し,コンパクトだが効率的でありながらペアワイドな類似性学習のためのモダリティ間の網羅的かつ強力な関係を動的に捉える。
具体的には、距離メートル法は、2種類の対角線とブロック対角線を微妙にカプセル化し、構造的および組織化されたトポロジー内のチャネル間の関連性と依存性を自動的に識別し強調する。
これにより、ペア化された特徴間の最適なマッチングパターンに適応し、モデルの複雑さと能力の間のスイートスポットに到達することができる。
クロスモーダルと2つの一様検索タスク(画像テキスト検索、人物再識別、きめ細かい画像検索)の広範な実験により、様々な検索フレームワークよりも優位性と柔軟性が検証された。
さらに重要なことは、複数のアプリケーションシナリオにシームレスに組み込むことができ、プラグイン・アンド・プレイ方式で、注意メカニズムから知識蒸留への将来性を示すことである。
私たちのコードは、https://github.com/Paranioar/GSSF.comで公開されています。
関連論文リスト
- Cross Spatial Temporal Fusion Attention for Remote Sensing Object Detection via Image Feature Matching [15.57849268814515]
参照画像とクエリ画像の両方で独立に検出されたスケール不変キーポイントを統合することで特徴表現を強化する機構を提案する。
まず、複数の画像領域からの情報を同時に活用する対応マップを作成し、次に、類似性マッチングプロセスを分類タスクとして再構成することで、特徴マッチングを改善する。
改良された特徴マッチングの実用性を示すために,HRSC2016およびDOTAベンチマークデータセットを用いてオブジェクト検出タスクのCSTFを評価する。
論文 参考訳(メタデータ) (2025-07-25T09:52:06Z) - Multimodal Representation Alignment for Cross-modal Information Retrieval [12.42313654539524]
異なる機械学習モデルは、異なる方法で同じ基礎概念を表現することができる。
この可変性は、入力として与えられた1つのモダリティで対応する表現を識別することを目的として、Wildのマルチモーダル検索において特に有用である。
そこで本研究では,視覚言語モデルと統合単調モデルの両方から得られる視覚とテキストの埋め込みの幾何学的関係について検討する。
次に、ニューラルネットワークを介して実装された4つの標準的な類似度メトリクスと2つの学習した指標を使用して、これらの表現を調整します。
論文 参考訳(メタデータ) (2025-06-10T13:16:26Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。