論文の概要: Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching
- arxiv url: http://arxiv.org/abs/2404.18114v1
- Date: Sun, 28 Apr 2024 08:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 17:53:05.948277
- Title: Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching
- Title(参考訳): 深層学習 : 画像テキストマッチングのための新しい協調的アプローチ
- Authors: Haiwen Diao, Ying Zhang, Shang Gao, Xiang Ruan, Huchuan Lu,
- Abstract要約: 画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
- 参考スコア(独自算出の注目度): 53.05954114863596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-text matching remains a challenging task due to heterogeneous semantic diversity across modalities and insufficient distance separability within triplets. Different from previous approaches focusing on enhancing multi-modal representations or exploiting cross-modal correspondence for more accurate retrieval, in this paper we aim to leverage the knowledge transfer between peer branches in a boosting manner to seek a more powerful matching model. Specifically, we propose a brand-new Deep Boosting Learning (DBL) algorithm, where an anchor branch is first trained to provide insights into the data properties, with a target branch gaining more advanced knowledge to develop optimal features and distance metrics. Concretely, an anchor branch initially learns the absolute or relative distance between positive and negative pairs, providing a foundational understanding of the particular network and data distribution. Building upon this knowledge, a target branch is concurrently tasked with more adaptive margin constraints to further enlarge the relative distance between matched and unmatched samples. Extensive experiments validate that our DBL can achieve impressive and consistent improvements based on various recent state-of-the-art models in the image-text matching field, and outperform related popular cooperative strategies, e.g., Conventional Distillation, Mutual Learning, and Contrastive Learning. Beyond the above, we confirm that DBL can be seamlessly integrated into their training scenarios and achieve superior performance under the same computational costs, demonstrating the flexibility and broad applicability of our proposed method. Our code is publicly available at: https://github.com/Paranioar/DBL.
- Abstract(参考訳): 画像テキストマッチングは、モダリティ間の不均一なセマンティックな多様性と、三重項内の距離分離性が不十分なため、依然として困難な課題である。
マルチモーダル表現の強化や、より正確な検索にクロスモーダル対応を活用することに焦点を当てた従来のアプローチとは違い、本稿では、ピアブランチ間の知識伝達を活用して、より強力なマッチングモデルを求めることを目的とする。
具体的には、新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。このアルゴリズムでは、まず、アンカーブランチがデータ特性に関する洞察を提供するために訓練され、ターゲットブランチは最適な特徴と距離メトリクスを開発するためにより高度な知識を得る。
具体的には、アンカーブランチは最初、正対と負対の絶対的あるいは相対的な距離を学習し、特定のネットワークとデータ分布の基本的な理解を提供する。
この知識に基づいて、ターゲットブランチは、一致したサンプルと未一致のサンプルの間の相対距離をさらに拡大するために、より適応的なマージン制約で同時にタスクされる。
画像テキストマッチング分野における様々な最先端モデルに基づいて,我々のDBLが印象的かつ一貫した改善を達成可能であること,また,従来型蒸留,相互学習,コントラスト学習など,一般的な協調戦略よりも優れていることを実証した。
さらに,DBLが学習シナリオにシームレスに統合され,同じ計算コストで優れた性能を達成できることを確認し,提案手法の柔軟性と幅広い適用性を実証した。
私たちのコードは、https://github.com/Paranioar/DBL.comで公開されています。
関連論文リスト
- Synergistic Anchored Contrastive Pre-training for Few-Shot Relation
Extraction [4.7220779071424985]
Few-shot Relation extract (FSRE) は、ラベル付きコーパスのスパースセットから事実を抽出することを目的としている。
近年の研究では、事前学習言語モデルを用いたFSREの有望な結果が示されている。
本稿では,新しい相乗的アンカー付きコントラスト事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T10:16:24Z) - Contrastive variational information bottleneck for aspect-based
sentiment analysis [36.83876224466177]
CVIB(Contrastive Variational Information Bottleneck)フレームワークを用いて,アスペクトベース感情分析(ABSA)の素早い相関性を低減することを提案する。
提案するCVIBフレームワークは,元のネットワークと自走ネットワークで構成され,これら2つのネットワークは,コントラスト学習によって同時に最適化される。
提案手法は, 全体的な予測性能, 堅牢性, 一般化の点で, 強力な競合相手よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T02:52:37Z) - Nearest Neighbor-Based Contrastive Learning for Hyperspectral and LiDAR
Data Classification [45.026868970899514]
本稿では,Nearest Neighbor-based Contrastive Learning Network (NNCNet)を提案する。
具体的には,近隣地域間のセマンティック関係を強化した近傍データ拡張手法を提案する。
さらに,HSIデータとLiDARデータ間の2次・高次特徴相互作用を生かしたバイリニアアテンションモジュールを設計する。
論文 参考訳(メタデータ) (2023-01-09T13:43:54Z) - Batch Active Learning from the Perspective of Sparse Approximation [12.51958241746014]
アクティブな学習は、機械学習エージェントと人間のアノテーションとのインタラクションを活用することで、効率的なモデルトレーニングを可能にする。
スパース近似の観点からバッチアクティブラーニングを定式化する新しいフレームワークを提案し,提案する。
我々のアクティブラーニング手法は、ラベルのないデータプールから、対応するトレーニング損失関数が、そのフルデータプールに近似するように、情報的サブセットを見つけることを目的としている。
論文 参考訳(メタデータ) (2022-11-01T03:20:28Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z) - An unsupervised deep learning framework via integrated optimization of
representation learning and GMM-based modeling [31.334196673143257]
本稿では,ディープ表現とGMMに基づくディープモデリングの両面において,共同学習の新たな原則を提案する。
類似分野の既存の作業と比較すると、目的関数は2つの学習目標を持ち、共同で最適化されるように作成される。
クラスタ間距離を小さくすることでクラスタのコンパクト性を著しく向上し、クラスタ間距離を増大させることで分離性を向上させる。
論文 参考訳(メタデータ) (2020-09-11T04:57:03Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。