論文の概要: Instance-Variant Loss with Gaussian RBF Kernel for 3D Cross-modal
Retriveal
- arxiv url: http://arxiv.org/abs/2305.04239v1
- Date: Sun, 7 May 2023 10:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:51:18.704057
- Title: Instance-Variant Loss with Gaussian RBF Kernel for 3D Cross-modal
Retriveal
- Title(参考訳): ガウス型rbfカーネルを用いた3次元クロスモーダルリトライバルのインスタンス可変損失
- Authors: Zhitao Liu, Zengyu Liu, Jiwei Wei, Guan Wang, Zhenjiang Du, Ning Xie,
Heng Tao Shen
- Abstract要約: 既存の方法は全てのインスタンスを等しく扱い、同じペナルティ強度を様々な難易度を持つインスタンスに適用する。
これは曖昧な収束や局所最適性をもたらし、特徴空間の分離性を著しく妥協させる。
本稿では,異なるインスタンスに対して異なるペナルティ強度を割り当て,空間分離性を向上させるインスタンス・ヴァリアント損失を提案する。
- 参考スコア(独自算出の注目度): 52.41252219453429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D cross-modal retrieval is gaining attention in the multimedia community.
Central to this topic is learning a joint embedding space to represent data
from different modalities, such as images, 3D point clouds, and polygon meshes,
to extract modality-invariant and discriminative features. Hence, the
performance of cross-modal retrieval methods heavily depends on the
representational capacity of this embedding space. Existing methods treat all
instances equally, applying the same penalty strength to instances with varying
degrees of difficulty, ignoring the differences between instances. This can
result in ambiguous convergence or local optima, severely compromising the
separability of the feature space. To address this limitation, we propose an
Instance-Variant loss to assign different penalty strengths to different
instances, improving the space separability. Specifically, we assign different
penalty weights to instances positively related to their intra-class distance.
Simultaneously, we reduce the cross-modal discrepancy between features by
learning a shared weight vector for the same class data from different
modalities. By leveraging the Gaussian RBF kernel to evaluate sample
similarity, we further propose an Intra-Class loss function that minimizes the
intra-class distance among same-class instances. Extensive experiments on three
3D cross-modal datasets show that our proposed method surpasses recent
state-of-the-art approaches.
- Abstract(参考訳): マルチメディアコミュニティでは3dクロスモーダル検索が注目されている。
このトピックの中心は、画像、3d点雲、多角形メッシュなどの異なるモダリティからのデータを表現する共同埋め込み空間を学習し、モダリティ不変かつ判別的特徴を抽出することである。
したがって、クロスモーダル検索法の性能は、この埋め込み空間の表現能力に大きく依存する。
既存の方法はすべてのインスタンスを平等に扱い、同じペナルティ強度を様々な難易度を持つインスタンスに適用し、インスタンス間の差異を無視します。
これは曖昧な収束や局所最適性をもたらし、特徴空間の分離性を著しく妥協させる。
この制限に対処するために,異なるインスタンスに対して異なるペナルティ強度を割り当てるインスタンス可変損失を提案し,空間分離性を改善する。
具体的には,クラス内距離に正の相関がある事例に対して,異なるペナルティ重みを割り当てる。
同時に、異なるモダリティから同じクラスデータに対する共有重みベクトルを学習することにより、特徴間の相互差を小さくする。
ガウス rbf カーネルを利用してサンプルの類似性を評価することにより,同クラスインスタンス間のクラス間距離を最小化するクラス内損失関数を提案する。
3つの3次元クロスモーダルデータセットに対する大規模な実験により,提案手法が最近の最先端のアプローチを上回ることが示された。
関連論文リスト
- Robust Multimodal Learning via Representation Decoupling [6.7678581401558295]
マルチモーダル学習はその実用性から注目を集めている。
既存の手法は、異なるモダリティの組み合わせに対して共通の部分空間表現を学習することで、この問題に対処する傾向がある。
本稿では,頑健なマルチモーダル学習を支援するために,DMRNet(Decoupled Multimodal Representation Network)を提案する。
論文 参考訳(メタデータ) (2024-07-05T12:09:33Z) - 3D Adversarial Augmentations for Robust Out-of-Domain Predictions [115.74319739738571]
ドメイン外データへの一般化の改善に注力する。
対象を逆向きに変形させるベクトルの集合を学習する。
本研究では,学習したサンプル非依存ベクトルをモデルトレーニング時に利用可能なオブジェクトに適用することにより,対数拡大を行う。
論文 参考訳(メタデータ) (2023-08-29T17:58:55Z) - Deep Metric Learning Assisted by Intra-variance in A Semi-supervised
View of Learning [0.0]
ディープ・メトリック・ラーニングは、異なるクラスのサンプルが互いに遠く離れているのに対して、同じクラスのサンプルが互いに近い埋め込み空間を構築することを目的としている。
本稿では,従来の教師付き深度学習のためのクラス内分散学習スキームの半教師付きビューを提供する自己教師付き生成支援ランキングフレームワークを設計する。
論文 参考訳(メタデータ) (2023-04-21T13:30:32Z) - Exploring Modality-shared Appearance Features and Modality-invariant
Relation Features for Cross-modality Person Re-Identification [72.95858515157603]
クロスモダリティの人物再識別作業は、識別モダリティ共有機能に依存する。
初期の成功にもかかわらず、このようなモダリティ共有の外観機能は十分なモダリティ不変情報をキャプチャできない。
クロスモダリティの変動をさらに低減するために、新しいクロスモダリティ四重極損失が提案される。
論文 参考訳(メタデータ) (2021-04-23T11:14:07Z) - Exploring Data Augmentation for Multi-Modality 3D Object Detection [82.9988604088494]
ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。
トランスフォーメーションフローと呼ばれるパイプラインを提案し、トランスフォーメーションのリバースとリプレイによってシングルモードとマルチモードのデータ拡張のギャップを埋める。
また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。
論文 参考訳(メタデータ) (2020-12-23T15:23:16Z) - Unsupervised Feature Learning by Cross-Level Instance-Group
Discrimination [68.83098015578874]
我々は、インスタンスグループ化ではなく、クロスレベルな識別によって、インスタンス間の類似性を対照的な学習に統合する。
CLDは、教師なし学習を、自然データや現実世界のアプリケーションに効果的に近づける。
セルフスーパービジョン、セミスーパービジョン、トランスファーラーニングベンチマークに関する新たな最先端技術は、報告されたすべてのパフォーマンスでMoCo v2とSimCLRを上回っている。
論文 参考訳(メタデータ) (2020-08-09T21:13:13Z) - Cross-modal Center Loss [28.509817129759014]
クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。
本稿では,メタデータを用いたクロスモーダル検索フレームワークのコンポーネントを共同で学習する手法を提案する。
提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。
論文 参考訳(メタデータ) (2020-08-08T17:26:35Z) - The Bures Metric for Generative Adversarial Networks [10.69910379275607]
GAN(Generative Adversarial Networks)は、高品質なサンプルを生成する高性能な生成手法である。
実バッチの多様性と偽バッチの多様性を一致させることを提案する。
多様性マッチングはモード崩壊を著しく低減し, サンプル品質に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T12:04:41Z) - Rethinking preventing class-collapsing in metric learning with
margin-based losses [81.22825616879936]
メトリクス学習は、視覚的に類似したインスタンスが近接し、異なるインスタンスが分離した埋め込みを求める。
マージンベースの損失は、クラスの全サンプルを埋め込み空間の単一点に投影する傾向がある。
そこで本研究では,各サンプルが最寄りの同一クラスをバッチで選択するように,埋め込み損失の簡易な修正を提案する。
論文 参考訳(メタデータ) (2020-06-09T09:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。