論文の概要: Learning Unseen Modality Interaction
- arxiv url: http://arxiv.org/abs/2306.12795v3
- Date: Wed, 25 Oct 2023 09:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 11:10:49.175282
- Title: Learning Unseen Modality Interaction
- Title(参考訳): 見えないモダリティインタラクションを学ぶ
- Authors: Yunhua Zhang and Hazel Doughty and Cees G.M. Snoek
- Abstract要約: マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
- 参考スコア(独自算出の注目度): 54.23533023883659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning assumes all modality combinations of interest are
available during training to learn cross-modal correspondences. In this paper,
we challenge this modality-complete assumption for multimodal learning and
instead strive for generalization to unseen modality combinations during
inference. We pose the problem of unseen modality interaction and introduce a
first solution. It exploits a module that projects the multidimensional
features of different modalities into a common space with rich information
preserved. This allows the information to be accumulated with a simple
summation operation across available modalities. To reduce overfitting to less
discriminative modality combinations during training, we further improve the
model learning with pseudo-supervision indicating the reliability of a
modality's prediction. We demonstrate that our approach is effective for
diverse tasks and modalities by evaluating it for multimodal video
classification, robot state regression, and multimedia retrieval. Project
website: https://xiaobai1217.github.io/Unseen-Modality-Interaction/.
- Abstract(参考訳): マルチモーダル学習(multimodal learning)は、興味のモダリティの組み合わせがトレーニング中に利用可能であると仮定し、クロスモーダル対応を学ぶ。
本稿では,マルチモーダル学習におけるモダリティ完全仮定に挑戦し,その代わりに推論中のモダリティ結合に対する一般化を試みる。
我々は,非知覚的モダリティ相互作用の問題を提起し,第1の解決法を提案する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
これにより、情報は利用可能なモダリティにまたがる単純な和演算で蓄積される。
トレーニング中の判別的モダリティの組み合わせを減らすために、モダリティ予測の信頼性を示す擬似スーパービジョンを用いてモデル学習をさらに改善する。
本手法は,マルチモーダル映像分類,ロボット状態回帰,マルチメディア検索において,多様なタスクやモダリティに対して有効であることを示す。
プロジェクトwebサイト: https://xiaobai1217.github.io/unseen-modality-interaction/
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - One-stage Modality Distillation for Incomplete Multimodal Learning [7.791488931628906]
本稿では,特権的知識伝達とモダリティ情報融合を一体化する一段階のモダリティ蒸留フレームワークを提案する。
提案手法は,各シーンにおける不完全なモダリティ入力の問題を克服し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-15T07:12:27Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and
Applications [97.79283975518047]
複数のモーダルから共同で学習する多くの機械学習システムでは、マルチモーダル相互作用の性質を理解することが中心的な研究課題である。
我々は,この相互作用定量化の課題について,ラベル付き単調データのみを用いた半教師付き環境で検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は、マルチモーダル相互作用の量を定量化するための下界と上界の導出である。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。