論文の概要: Multimodal Knowledge Expansion
- arxiv url: http://arxiv.org/abs/2103.14431v1
- Date: Fri, 26 Mar 2021 12:32:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 12:51:18.093185
- Title: Multimodal Knowledge Expansion
- Title(参考訳): マルチモーダル知識の拡張
- Authors: Zihui Xue, Sucheng Ren, Zhengqi Gao and Hang Zhao
- Abstract要約: ラベルを必要とせずにマルチモーダルデータを利用する知識蒸留に基づくフレームワークを提案する。
我々は、マルチモーダルな学生モデルが一貫して疑似ラベルを否定し、教師よりも優れた一般化を示す。
- 参考スコア(独自算出の注目度): 14.332957885505547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The popularity of multimodal sensors and the accessibility of the Internet
have brought us a massive amount of unlabeled multimodal data. Since existing
datasets and well-trained models are primarily unimodal, the modality gap
between a unimodal network and unlabeled multimodal data poses an interesting
problem: how to transfer a pre-trained unimodal network to perform the same
task on unlabeled multimodal data? In this work, we propose multimodal
knowledge expansion (MKE), a knowledge distillation-based framework to
effectively utilize multimodal data without requiring labels. Opposite to
traditional knowledge distillation, where the student is designed to be
lightweight and inferior to the teacher, we observe that a multimodal student
model consistently denoises pseudo labels and generalizes better than its
teacher. Extensive experiments on four tasks and different modalities verify
this finding. Furthermore, we connect the mechanism of MKE to semi-supervised
learning and offer both empirical and theoretical explanations to understand
the denoising capability of a multimodal student.
- Abstract(参考訳): マルチモーダルセンサーの人気とインターネットのアクセシビリティにより、大量のラベルなしマルチモーダルデータがもたらされました。
既存のデータセットとよく訓練されたモデルは、主にunimodalであるので、unimodal networkとunlabeled multimodal dataの間のモダリティギャップは、興味深い問題を引き起こす: トレーニング済みのunimodal networkを転送して、unlabeled multimodal dataで同じタスクを実行する方法?
本研究では,ラベルを必要としないマルチモーダルデータを有効に活用するための知識蒸留ベースのフレームワークであるマルチモーダル知識拡張(MKE)を提案する。
従来の知識蒸留に対抗して,学生は教師より軽量で劣るように設計されており,マルチモーダルな学生モデルが常に擬似ラベルを軽視し,教師よりも一般化することが観察された。
4つのタスクと異なるモダリティに関する広範囲な実験がこの発見を検証する。
さらに,MKEのメカニズムを半教師付き学習に結びつけ,マルチモーダル学生の認知能力を理解するための経験的・理論的説明を提供する。
関連論文リスト
- Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。
本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。
以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis [25.66434557076494]
上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案する。
まず,一様表現と多様表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。
次に,両レベル最適化戦略を用いて,MUCNを明示的な監督で訓練するための一助多モーダル・マルチモーダル・Denoisingタスクを提案する。
論文 参考訳(メタデータ) (2024-08-28T03:43:01Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - MultiDelete for Multimodal Machine Unlearning [14.755831733659699]
MultiDeleteは、アンラーニング中の非モーダルデータポイント間の関連を分離するように設計されている。
アンラーニング後のオリジナルのモデルのマルチモーダルとユニモーダルの知識を維持できる。
敵の攻撃に対して、未学習のデータに対するより優れた保護を提供することができる。
論文 参考訳(メタデータ) (2023-11-18T08:30:38Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unlock the Power: Competitive Distillation for Multi-Modal Large
Language Models [17.25135606956287]
競合型マルチモーダル蒸留フレームワーク(CoMD)は,教師モデルと学生モデル間の双方向フィードバックをキャプチャする。
多様なデータセットを実験的に分析した結果,我々の知識伝達手法は学生モデルの性能を継続的に改善することがわかった。
論文 参考訳(メタデータ) (2023-11-14T14:49:46Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Unimodal Training-Multimodal Prediction: Cross-modal Federated Learning
with Hierarchical Aggregation [16.308470947384134]
HA-Fedformerは新しいトランスフォーマーベースのモデルで、クライアントでのアンモダルデータセットのみを使用して、単一モダルトレーニングを可能にする。
我々は,マルコフ連鎖モンテカルロサンプリングを用いた局所エンコーダの不確実性を考慮したアグリゲーション法を開発した。
一般的な感情分析ベンチマークであるCMU-MOSIとCMU-MOSEIの実験は、HA-Fedformerが最先端のマルチモーダルモデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2023-03-27T07:07:33Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - What Makes Multimodal Learning Better than Single (Provably) [28.793128982222438]
複数のモダリティを持つ学習は、モダリティのサブセットを使用することで、より少ない人口リスクを達成できることを示す。
これは、実際のマルチモーダル応用で観測された重要な定性的現象を捉えた最初の理論的治療である。
論文 参考訳(メタデータ) (2021-06-08T17:20:02Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。