論文の概要: Cross-modal Center Loss
- arxiv url: http://arxiv.org/abs/2008.03561v1
- Date: Sat, 8 Aug 2020 17:26:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 12:03:29.111437
- Title: Cross-modal Center Loss
- Title(参考訳): クロスモーダルセンター損失
- Authors: Longlong Jing and Elahe Vahdani and Jiaxing Tan and Yingli Tian
- Abstract要約: クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。
本稿では,メタデータを用いたクロスモーダル検索フレームワークのコンポーネントを共同で学習する手法を提案する。
提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。
- 参考スコア(独自算出の注目度): 28.509817129759014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval aims to learn discriminative and modal-invariant
features for data from different modalities. Unlike the existing methods which
usually learn from the features extracted by offline networks, in this paper,
we propose an approach to jointly train the components of cross-modal retrieval
framework with metadata, and enable the network to find optimal features. The
proposed end-to-end framework is updated with three loss functions: 1) a novel
cross-modal center loss to eliminate cross-modal discrepancy, 2) cross-entropy
loss to maximize inter-class variations, and 3) mean-square-error loss to
reduce modality variations. In particular, our proposed cross-modal center loss
minimizes the distances of features from objects belonging to the same class
across all modalities. Extensive experiments have been conducted on the
retrieval tasks across multi-modalities, including 2D image, 3D point cloud,
and mesh data. The proposed framework significantly outperforms the
state-of-the-art methods on the ModelNet40 dataset.
- Abstract(参考訳): クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。
本稿では,オフラインネットワークで抽出される特徴から通常学習する既存の手法と異なり,クロスモーダル検索フレームワークのコンポーネントとメタデータを共同で学習し,ネットワークが最適な特徴を見つけるための手法を提案する。
提案するエンドツーエンドフレームワークは、3つの損失関数で更新される。
1) クロスモーダル不一致を解消するための新しいクロスモーダルセンターロス
2)クラス間変動を最大化するクロスエントロピー損失及び
3) モダリティ変動を低減させる平均2乗誤差損失。
特に,提案するクロスモーダルセンタロスは,同一クラスに属するオブジェクトとすべてのモダリティの間の特徴距離を最小化する。
2d画像,3dポイントクラウド,メッシュデータなど,複数モードにわたる検索タスクに関する広範な実験が行われている。
提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。
関連論文リスト
- Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal
Data [10.908771426089512]
クロスモーダルなアプリケーションの構築は、限られたペアのマルチモーダルデータのために難しい。
近年の研究では、事前訓練されたマルチモーダルコントラスト表現空間を利用することで、ユニモーダルデータからクロスモーダルタスクを学習できることが示されている。
C3$ (Connect, Collapse, Corrupt) という3段階の手法を導入し、モダリティギャップを橋渡しし、埋め込みの交換性を高める。
論文 参考訳(メタデータ) (2024-01-16T18:52:27Z) - Modality Unifying Network for Visible-Infrared Person Re-Identification [24.186989535051623]
Visible-infrared person re-identification (VI-ReID) は、異種間の大きな相違とクラス内変異のために難しい課題である。
既存の手法は主に、異なるモダリティを同じ特徴空間に埋め込むことで、モダリティ共有表現を学習することに焦点を当てている。
そこで我々は,VI-ReID の頑健な補助モダリティを探索するために,新しいモダリティ統一ネットワーク (MUN) を提案する。
論文 参考訳(メタデータ) (2023-09-12T14:22:22Z) - Instance-Variant Loss with Gaussian RBF Kernel for 3D Cross-modal
Retriveal [52.41252219453429]
既存の方法は全てのインスタンスを等しく扱い、同じペナルティ強度を様々な難易度を持つインスタンスに適用する。
これは曖昧な収束や局所最適性をもたらし、特徴空間の分離性を著しく妥協させる。
本稿では,異なるインスタンスに対して異なるペナルティ強度を割り当て,空間分離性を向上させるインスタンス・ヴァリアント損失を提案する。
論文 参考訳(メタデータ) (2023-05-07T10:12:14Z) - GARNet: Global-Aware Multi-View 3D Reconstruction Network and the
Cost-Performance Tradeoff [10.8606881536924]
本稿では,各ブランチとグローバル間の相関関係を構築し,重み付け推論の包括的基盤を提供する,グローバルアウェアアテンションベースの融合手法を提案する。
ネットワークの能力を高めるために,ネットワーク全体の形状を監督する新たな損失関数を導入する。
ShapeNetの実験により,本手法が既存のSOTA法より優れていることを確認した。
論文 参考訳(メタデータ) (2022-11-04T07:45:19Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Exploring Modality-shared Appearance Features and Modality-invariant
Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。
初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。
クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文 参考訳(メタデータ) (2021-04-23T11:14:07Z) - InverseForm: A Loss Function for Structured Boundary-Aware Segmentation [80.39674800972182]
逆変換ネットワークを用いたセマンティックセグメンテーションのための新しい境界認識損失項を提案する。
このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完する。
室内および屋外のセグメンテーションベンチマークにおける損失関数の定量的および定性的効果を解析した。
論文 参考訳(メタデータ) (2021-04-06T18:52:45Z) - Recurrent Multi-view Alignment Network for Unsupervised Surface
Registration [79.72086524370819]
非厳格な登録をエンドツーエンドで学習することは、本質的に高い自由度とラベル付きトレーニングデータの欠如により困難である。
我々は、いくつかの剛性変換のポイントワイドな組み合わせで、非剛性変換を表現することを提案する。
また,投影された多視点2次元深度画像上での3次元形状の類似度を計測する可微分損失関数も導入する。
論文 参考訳(メタデータ) (2020-11-24T14:22:42Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。