論文の概要: Graph Pattern Loss based Diversified Attention Network for Cross-Modal
Retrieval
- arxiv url: http://arxiv.org/abs/2106.13552v1
- Date: Fri, 25 Jun 2021 10:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 20:18:26.132302
- Title: Graph Pattern Loss based Diversified Attention Network for Cross-Modal
Retrieval
- Title(参考訳): グラフパターン損失に基づくクロスモーダル検索のための分散注意ネットワーク
- Authors: Xueying Chen, Rong Zhang, Yibing Zhan
- Abstract要約: クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることで、柔軟な検索体験を実現することを目的としている。
教師なしアプローチのコアの1つは、高価なラベルを必要とすることなく、異なるオブジェクト表現間の相関関係を掘り下げて、満足度の高い検索性能を完成させることである。
教師なしクロスモーダル検索のためのグラフパターン損失に基づく分散注意ネットワーク(GPLDAN)を提案する。
- 参考スコア(独自算出の注目度): 10.420129873840578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal retrieval aims to enable flexible retrieval experience by
combining multimedia data such as image, video, text, and audio. One core of
unsupervised approaches is to dig the correlations among different object
representations to complete satisfied retrieval performance without requiring
expensive labels. In this paper, we propose a Graph Pattern Loss based
Diversified Attention Network(GPLDAN) for unsupervised cross-modal retrieval to
deeply analyze correlations among representations. First, we propose a
diversified attention feature projector by considering the interaction between
different representations to generate multiple representations of an instance.
Then, we design a novel graph pattern loss to explore the correlations among
different representations, in this graph all possible distances between
different representations are considered. In addition, a modality classifier is
added to explicitly declare the corresponding modalities of features before
fusion and guide the network to enhance discrimination ability. We test GPLDAN
on four public datasets. Compared with the state-of-the-art cross-modal
retrieval methods, the experimental results demonstrate the performance and
competitiveness of GPLDAN.
- Abstract(参考訳): クロスモーダル検索は、画像、ビデオ、テキスト、オーディオなどのマルチメディアデータを組み合わせることで、柔軟な検索エクスペリエンスを実現することを目的としている。
教師なしアプローチのコアの1つは、異なるオブジェクト表現間の相関を掘り下げて、高価なラベルを必要とせずに完全な検索性能を達成することである。
本稿では,表現間の相関関係を深く解析するために,教師なしクロスモーダル検索のためのグラフパターン損失に基づく分散注意ネットワーク(GPLDAN)を提案する。
まず、インスタンスの複数の表現を生成するために異なる表現間の相互作用を考慮し、多様な注目機能プロジェクタを提案する。
そこで我々は,異なる表現間の相関関係を探索するために,新しいグラフパターンの損失を設計する。
さらに、融合前に対応する特徴のモダリティを明示的に宣言するためにモダリティ分類器を追加し、ネットワークを誘導して識別能力を高める。
GPLDANを4つの公開データセットでテストする。
最先端のクロスモーダル検索手法と比較して,GPLDANの性能と競争性を示す実験結果が得られた。
関連論文リスト
- Visual Commonsense based Heterogeneous Graph Contrastive Learning [79.22206720896664]
視覚的推論タスクをより良く仕上げるための異種グラフコントラスト学習法を提案する。
本手法はプラグイン・アンド・プレイ方式として設計されており,多種多様な代表手法と迅速かつ容易に組み合わせることができる。
論文 参考訳(メタデータ) (2023-11-11T12:01:18Z) - Entropy Neural Estimation for Graph Contrastive Learning [9.032721248598088]
グラフ上のコントラスト学習は、ノードの区別可能な高レベル表現を抽出することを目的としている。
本稿では,データセットのビュー間のペアワイズ表現を対比する,単純かつ効果的なサブセットサンプリング戦略を提案する。
7つのグラフベンチマークで広範な実験を行い、提案手法は競合性能を実現する。
論文 参考訳(メタデータ) (2023-07-26T03:55:08Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Scale-Semantic Joint Decoupling Network for Image-text Retrieval in
Remote Sensing [23.598273691455503]
リモートセンシング画像テキスト検索のためのSJDN(Scale-Semantic Joint Decoupling Network)を提案する。
提案するSSJDNは,4つのベンチマークリモートセンシングデータセットを用いて行った数値実験において,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-12T08:02:35Z) - Visually-aware Acoustic Event Detection using Heterogeneous Graphs [39.90352230010103]
聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。
モーダル性の間の空間的および時間的関係を捉えるために異種グラフを用いる。
空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間の関係を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-07-16T13:09:25Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - ACTIVE:Augmentation-Free Graph Contrastive Learning for Partial
Multi-View Clustering [52.491074276133325]
部分的マルチビュークラスタリングの問題を解決するために,拡張自由グラフコントラスト学習フレームワークを提案する。
提案手法は、インスタンスレベルのコントラスト学習と欠落データ推論をクラスタレベルに高め、個々の欠落データがクラスタリングに与える影響を効果的に軽減する。
論文 参考訳(メタデータ) (2022-03-01T02:32:25Z) - r-GAT: Relational Graph Attention Network for Multi-Relational Graphs [8.529080554172692]
Graph Attention Network (GAT)は、単純な無方向性グラフと単一のリレーショナルグラフデータのみをモデル化することに焦点を当てている。
マルチチャネルエンティティ表現を学習するための関係グラフアテンションネットワークであるr-GATを提案する。
リンク予測とエンティティ分類タスクの実験は、我々のr-GATがマルチリレーショナルグラフを効果的にモデル化できることを示します。
論文 参考訳(メタデータ) (2021-09-13T12:43:00Z) - Instance-Aware Graph Convolutional Network for Multi-Label
Classification [55.131166957803345]
グラフ畳み込みニューラルネットワーク(GCN)は、マルチラベル画像認識タスクを効果的に強化した。
マルチラベル分類のための事例対応グラフ畳み込みニューラルネットワーク(IA-GCN)フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-19T12:49:28Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。