論文の概要: MMOne: Representing Multiple Modalities in One Scene
- arxiv url: http://arxiv.org/abs/2507.11129v1
- Date: Tue, 15 Jul 2025 09:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.054938
- Title: MMOne: Representing Multiple Modalities in One Scene
- Title(参考訳): MMOne: ひとつのシーンで複数のモダリティを表現する
- Authors: Zhifeng Gu, Bing Wang,
- Abstract要約: 一つのシーンで複数のモーダルを表現するための一般的なフレームワークMMOneを提案する。
具体的には、各モダリティのユニークな特性を捉えるために、新しいモダリティ指標を持つモダリティモデリングモジュールを提案する。
また、モダリティ差に基づき、マルチモーダルガウスを単一モーダルガウスに分離する多モーダル分解機構を設計する。
- 参考スコア(独自算出の注目度): 2.617962830559083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans perceive the world through multimodal cues to understand and interact with the environment. Learning a scene representation for multiple modalities enhances comprehension of the physical world. However, modality conflicts, arising from inherent distinctions among different modalities, present two critical challenges: property disparity and granularity disparity. To address these challenges, we propose a general framework, MMOne, to represent multiple modalities in one scene, which can be readily extended to additional modalities. Specifically, a modality modeling module with a novel modality indicator is proposed to capture the unique properties of each modality. Additionally, we design a multimodal decomposition mechanism to separate multi-modal Gaussians into single-modal Gaussians based on modality differences. We address the essential distinctions among modalities by disentangling multimodal information into shared and modality-specific components, resulting in a more compact and efficient multimodal scene representation. Extensive experiments demonstrate that our method consistently enhances the representation capability for each modality and is scalable to additional modalities. The code is available at https://github.com/Neal2020GitHub/MMOne.
- Abstract(参考訳): 人間はマルチモーダルな手がかりを通じて世界を知覚し、環境を理解し、相互作用する。
複数のモダリティのシーン表現を学習することで、物理世界の理解を深める。
しかし、異なるモダリティ間の固有の区別から生じるモダリティの対立は、性質の相違と粒度の相違という2つの重要な課題を提示する。
これらの課題に対処するため,一場面で複数のモダリティを表現するためのフレームワークMMOneを提案する。
具体的には、各モダリティのユニークな特性を捉えるために、新しいモダリティ指標を持つモダリティモデリングモジュールを提案する。
さらに,モダリティ差に基づき,多モードガウスを単一モードガウスに分離する多モード分解機構を設計する。
マルチモーダル情報を共有およびモダリティ固有のコンポーネントに切り離すことにより、モダリティ間の本質的な区別を解消し、よりコンパクトで効率的なマルチモーダルシーン表現を実現する。
拡張実験により,本手法は各モダリティの表現能力を常に向上し,追加モダリティに拡張可能であることが示された。
コードはhttps://github.com/Neal2020GitHub/MMOneで公開されている。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - What to align in multimodal contrastive learning? [7.7439394183358745]
単一マルチモーダル空間におけるモダリティ間の通信を可能にするコントラスト型マルチモーダル学習戦略を導入する。
我々の理論的分析は、情報の共有、相乗的、ユニークな用語がこの定式化から自然に現れることを示している。
後者では、CoMMは複雑なマルチモーダル相互作用を学び、7つのマルチモーダルベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-11T16:42:22Z) - Chameleon: Images Are What You Need For Multimodal Learning Robust To Missing Modalities [17.723207830420996]
マルチモーダル学習法は、1つ以上のモダリティが欠如している場合、劣化した性能を示すことが多い。
本稿では,従来のマルチブランチ設計から完全に逸脱した,頑健なテキスト-視覚的マルチモーダル学習手法Chameleonを提案する。
実験は、Hateful Memes, UPMC Food-101, MM-IMDb, Ferramentaの4つの一般的なデータセットで行われている。
論文 参考訳(メタデータ) (2024-07-23T07:29:57Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - It is Never Too Late to Mend: Separate Learning for Multimedia Recommendation [19.826293335983145]
マルチメディアレコメンデーションのためのセパレート・ラーニング(SEA)を提案し,主にモーダル・ユニクおよびジェネリック・ラーニングの相互情報ビューを含む。
具体的には、まずGNNを用いて、異なるモーダルのユーザとアイテムの表現を学習し、各モーダル表現を総称的および一意的な部分に分割する。次に、異なるモーダルの一般的な部分の整合性を最大化し、より高品質なモーダル・ジェネリックな特徴を学習するために、相互情報の低境界を最大化するためにSolosimlossを設計する。
論文 参考訳(メタデータ) (2024-06-12T14:35:43Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。