論文の概要: MMOE: Mixture of Multimodal Interaction Experts
- arxiv url: http://arxiv.org/abs/2311.09580v1
- Date: Thu, 16 Nov 2023 05:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:25:37.510561
- Title: MMOE: Mixture of Multimodal Interaction Experts
- Title(参考訳): mmoe:マルチモーダルインタラクションの専門家の混合
- Authors: Haofei Yu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency
- Abstract要約: MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
- 参考スコア(独自算出の注目度): 115.20477067767399
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal machine learning, which studies the information and interactions
across various input modalities, has made significant advancements in
understanding the relationship between images and descriptive text. However,
this is just a portion of the potential multimodal interactions seen in the
real world and does not include new interactions between conflicting utterances
and gestures in predicting sarcasm, for example. Notably, the current methods
for capturing shared information often do not extend well to these more nuanced
interactions, sometimes performing as low as 50% in binary classification. In
this paper, we address this problem via a new approach called MMOE, which
stands for a mixture of multimodal interaction experts. Our method
automatically classifies data points from unlabeled multimodal datasets by
their interaction type and employs specialized models for each specific
interaction. Based on our experiments, this approach improves performance on
these challenging interactions by more than 10%, leading to an overall increase
of 2% for tasks like sarcasm prediction. As a result, interaction
quantification provides new insights for dataset analysis and yields simple
approaches that obtain state-of-the-art performance.
- Abstract(参考訳): 様々な入力モダリティに関する情報とインタラクションを研究するマルチモーダル機械学習は、画像と記述テキストの関係を理解する上で大きな進歩を遂げている。
しかし、これは現実世界で見られる潜在的なマルチモーダルな相互作用の一部に過ぎず、例えばサルカズムの予測において、対立する発話とジェスチャーの間の新たな相互作用は含まない。
特に、共有情報をキャプチャする現在の手法は、これらのよりニュアンスな相互作用にうまく及ばず、時にはバイナリ分類において50%の低性能を示す。
本稿では,マルチモーダルインタラクションの専門家の混在を念頭に,MMOEと呼ばれる新しいアプローチを用いてこの問題に対処する。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
その結果、インタラクションの定量化はデータセット分析に新たな洞察を与え、最先端のパフォーマンスを得るためのシンプルなアプローチをもたらす。
関連論文リスト
- AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and
Applications [97.79283975518047]
複数のモーダルから共同で学習する多くの機械学習システムでは、マルチモーダル相互作用の性質を理解することが中心的な研究課題である。
我々は,この相互作用定量化の課題について,ラベル付き単調データのみを用いた半教師付き環境で検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は、マルチモーダル相互作用の量を定量化するための下界と上界の導出である。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation [38.08152990071453]
我々は、教師なし対話的セグメンテーションのための有望な方向を開くために、MIS(Multi-granularity Interaction Simulation)アプローチを導入する。
我々のMISは、非深層学習の非教師付き手法よりも優れており、アノテーションを使わずに従来の深層教師付き手法と同等である。
論文 参考訳(メタデータ) (2023-03-23T16:19:43Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Dynamic Representation Learning with Temporal Point Processes for
Higher-Order Interaction Forecasting [8.680676599607123]
本稿では,これらの問題に対処するためのハイパーエッジ予測のための時間点プロセスモデルを提案する。
私たちの知る限りでは、動的ネットワークのハイパーエッジを予測するために時間点プロセスを使った最初の研究である。
論文 参考訳(メタデータ) (2021-12-19T14:24:37Z) - Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis [18.4364234071951]
我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
論文 参考訳(メタデータ) (2021-09-04T06:04:21Z) - Unlimited Neighborhood Interaction for Heterogeneous Trajectory
Prediction [97.40338982628094]
マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的な非境界相互作用ネットワーク (UNIN) を提案する。
具体的には、提案した無制限近傍相互作用モジュールは、相互作用に関与するすべてのエージェントの融合特徴を同時に生成する。
階層型グラフアテンションモジュールを提案し,カテゴリ間相互作用とエージェント間相互作用を求める。
論文 参考訳(メタデータ) (2021-07-31T13:36:04Z) - Information Interaction Profile of Choice Adoption [2.9972063833424216]
相互作用するエンティティを分離する時間的距離に応じて、エンティティの相互作用ネットワークとその進化を推定する効率的な方法を紹介します。
相互作用プロファイルは、相互作用プロセスのメカニズムを特徴付けることができます。
ユーザに対する露出の組み合わせの効果は、各露出の独立した効果の総和以上のものであることを示す。
論文 参考訳(メタデータ) (2021-04-28T10:42:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。