Fugu-MT 論文翻訳(概要): Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport

論文の概要: Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport

arxiv url: http://arxiv.org/abs/2104.08489v1
Date: Sat, 17 Apr 2021 09:18:28 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-20 14:29:39.452182
Title: Semi-Supervised Multi-Modal Multi-Instance Multi-Label Deep Network with Optimal Transport
Title（参考訳）: 最適輸送を用いた半改良マルチモードマルチインスタンス・マルチラベルディープネットワーク
Authors: Yang Yang, Zhao-Yang Fu, De-Chuan Zhan, Zhi-Bin Liu, and Yuan Jiang
Abstract要約: M3DN (Multi-modal Multi-instance Multi-label Deep Network) を提案する。 M3DNは、M3学習をエンドツーエンドのマルチモーダルディープネットワークで考慮し、異なるモーダルバッグレベルの予測間で一貫性の原則を利用します。これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。
参考スコア（独自算出の注目度）: 24.930976128926314
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Complex objects are usually with multiple labels, and can be represented by multiple modal representations, e.g., the complex articles contain text and image information as well as multiple annotations. Previous methods assume that the homogeneous multi-modal data are consistent, while in real applications, the raw data are disordered, e.g., the article constitutes with variable number of inconsistent text and image instances. Therefore, Multi-modal Multi-instance Multi-label (M3) learning provides a framework for handling such task and has exhibited excellent performance. However, M3 learning is facing two main challenges: 1) how to effectively utilize label correlation; 2) how to take advantage of multi-modal learning to process unlabeled instances. To solve these problems, we first propose a novel Multi-modal Multi-instance Multi-label Deep Network (M3DN), which considers M3 learning in an end-to-end multi-modal deep network and utilizes consistency principle among different modal bag-level predictions. Based on the M3DN, we learn the latent ground label metric with the optimal transport. Moreover, we introduce the extrinsic unlabeled multi-modal multi-instance data, and propose the M3DNS, which considers the instance-level auto-encoder for single modality and modified bag-level optimal transport to strengthen the consistency among modalities. Thereby M3DNS can better predict label and exploit label correlation simultaneously. Experiments on benchmark datasets and real world WKG Game-Hub dataset validate the effectiveness of the proposed methods.
Abstract（参考訳）: 複雑なオブジェクトは通常、複数のラベルを持ち、複数のモーダル表現で表現することができる。以前の方法では、均質なマルチモーダルデータは一貫性があり、実際のアプリケーションでは、生データは乱れ、例えば、記事は、不整合なテキストと画像インスタンスの可変数で構成される。そのため、マルチモーダルマルチインスタンスマルチラベル(M3)学習は、そのようなタスクを扱うためのフレームワークを提供し、優れた性能を示した。しかし、M3学習は、1)ラベル相関を効果的に活用する方法、2)ラベルのないインスタンスを処理するためにマルチモーダル学習を利用する方法の2つの主な課題に直面している。そこで本研究では,m3学習をエンド・ツー・エンドのマルチモーダル深層ネットワークで考慮し,異なるモーダルバッグレベル予測の一貫性原理を生かしたマルチモーダルマルチインスタンス深層ネットワーク(m3dn)を提案する。 M3DNに基づいて、最適な輸送量を持つ潜在地層ラベルの計量を学習する。さらに,非ラベル付きマルチモーダルマルチインスタンスデータを導入し,単一モダリティのインスタンスレベルのオートエンコーダとバッグレベルの最適化トランスポートを考慮したM3DNSを提案し,モダリティ間の整合性を高める。これにより、M3DNSはラベルを予測し、ラベル相関を同時に活用できる。ベンチマークデータセットと実世界のwkgゲームハブデータセットの実験は、提案手法の有効性を検証する。

関連論文リスト

mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文参考訳（メタデータ） (2025-02-12T15:03:33Z)
MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文参考訳（メタデータ） (2025-01-20T06:56:30Z)
SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文参考訳（メタデータ） (2024-12-30T02:47:51Z)
MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT [11.884646027921173]
分散および異種IoTデータのマルチモーダル学習のための新しいフレームワークであるMBindを提案する。同様の事象を観測する異なるモードのデータを、異なる時間や場所で捉えたとしても、マルチモーダルトレーニングに効果的に利用できることを示す。
論文参考訳（メタデータ） (2024-11-18T23:34:07Z)
Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文参考訳（メタデータ） (2024-10-29T19:28:41Z)
Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis [25.66434557076494]
上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案する。まず,一様表現と多様表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。次に,両レベル最適化戦略を用いて,MUCNを明示的な監督で訓練するための一助多モーダル・マルチモーダル・Denoisingタスクを提案する。
論文参考訳（メタデータ） (2024-08-28T03:43:01Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces [67.07083389543799]
我々は,70億から300億のパラメータからなる大規模マルチモーダル関節表現モデルOmniBindを提案する。全てのモダリティにまたがるデータペアが不足しているため、スクラッチから大規模モデルをトレーニングする代わりに、様々な事前訓練された専門家モデルの空間を再マッピングし結合することを提案する。実験では、OmniBindのオムニ表現モデルとしての汎用性と優位性を示し、多様なアプリケーションに対するその大きな可能性を強調している。
論文参考訳（メタデータ） (2024-07-16T16:24:31Z)
U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-24T08:58:48Z)
Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文参考訳（メタデータ） (2023-06-07T15:44:53Z)
Align and Attend: Multimodal Summarization with Dual Contrastive Losses [57.83012574678091]
マルチモーダル要約の目標は、異なるモーダルから最も重要な情報を抽出し、出力要約を形成することである。既存の手法では、異なるモダリティ間の時間的対応の活用に失敗し、異なるサンプル間の本質的な相関を無視する。 A2Summ(Align and Attend Multimodal Summarization)は、マルチモーダル入力を効果的に整列し、参加できる統一型マルチモーダルトランスフォーマーモデルである。
論文参考訳（メタデータ） (2023-03-13T17:01:42Z)
MM-TTA: Multi-Modal Test-Time Adaptation for 3D Semantic Segmentation [104.48766162008815]
本稿では,3次元セマンティックセグメンテーションのためのテスト時間適応のマルチモーダル拡張を提案する。マルチモダリティを最大限に活用できるフレームワークを設計するために、各モダリティは他のモダリティに対して正規化された自己監督信号を提供する。正規化された擬似ラベルは、多数の多モードテスト時間適応シナリオにおいて安定した自己学習信号を生成する。
論文参考訳（メタデータ） (2022-04-27T02:28:12Z)
CLMLF:A Contrastive Learning and Multi-Layer Fusion Method for Multimodal Sentiment Detection [24.243349217940274]
マルチモーダル感情検出のためのコントラスト学習・多層融合法(CLMLF)を提案する。具体的には、まずテキストと画像をエンコードして隠れ表現を取得し、次に多層融合モジュールを使用してテキストと画像のトークンレベルの特徴を整列し、融合する。また、感情分析タスクに加えて、ラベルベースコントラスト学習とデータベースコントラスト学習という2つのコントラスト学習タスクを設計した。
論文参考訳（メタデータ） (2022-04-12T04:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。