論文の概要: Semantic Residual for Multimodal Unified Discrete Representation
- arxiv url: http://arxiv.org/abs/2412.19128v1
- Date: Thu, 26 Dec 2024 09:08:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:28:18.705108
- Title: Semantic Residual for Multimodal Unified Discrete Representation
- Title(参考訳): 多モード統一離散表現のための意味的残差
- Authors: Hai Huang, Shulei Wang, Yan Xia,
- Abstract要約: SRCID(Semantic Residual Cross-modal Information Disentanglement)という,Residual Vector Quantization(RVQ)に固有の数値的残差概念に着想を得た新しいフレームワークを導入する。
SRCIDは、多モーダルデータに対して意味的残差に基づく情報分散を用いて、異なるモーダル間の固有の不一致をうまく処理する。
本手法は,統合マルチモーダル表現の能力を向上し,クロスモーダル一般化とクロスモーダルゼロショット検索における例外的な性能を示す。
- 参考スコア(独自算出の注目度): 4.337353601064055
- License:
- Abstract: Recent research in the domain of multimodal unified representations predominantly employs codebook as representation forms, utilizing Vector Quantization(VQ) for quantization, yet there has been insufficient exploration of other quantization representation forms. Our work explores more precise quantization methods and introduces a new framework, Semantic Residual Cross-modal Information Disentanglement (SRCID), inspired by the numerical residual concept inherent to Residual Vector Quantization (RVQ). SRCID employs semantic residual-based information disentanglement for multimodal data to better handle the inherent discrepancies between different modalities. Our method enhances the capabilities of unified multimodal representations and demonstrates exceptional performance in cross-modal generalization and cross-modal zero-shot retrieval. Its average results significantly surpass existing state-of-the-art models, as well as previous attempts with RVQ and Finite Scalar Quantization (FSQ) based on these modals.
- Abstract(参考訳): マルチモーダル統一表現の領域における最近の研究は、主にコードブックを表現形式として用い、量子化にベクトル量子化(VQ)を用いているが、他の量子化表現形式についての調査は不十分である。
我々の研究はより正確な量子化法を探求し、Residual Vector Quantization(RVQ)に固有の数値的残差概念から着想を得たSemantic Residual Cross-modal Information Disentanglement(SRCID)という新しいフレームワークを導入する。
SRCIDは、多モーダルデータに対して意味的残差に基づく情報分散を用いて、異なるモーダル間の固有の不一致をうまく処理する。
本手法は,統合マルチモーダル表現の能力を向上し,クロスモーダル一般化とクロスモーダルゼロショット検索における例外的な性能を示す。
その平均結果は、既存の最先端モデルと、これらのモダルに基づくRVQとFinite Scalar Quantization(FSQ)による以前の試みをはるかに上回っている。
関連論文リスト
- Toward Robust Incomplete Multimodal Sentiment Analysis via Hierarchical Representation Learning [21.127950337002776]
マルチモーダル・センティメント・アナリティクス(MSA)は、複数のモーダルを通して人間の感情を理解し、認識することを目的とした重要な研究分野である。
本稿では,不確実なモダリティの下でのタスクのための階層表現学習フレームワーク(HRLF)を提案する。
HRLFは、不確実なモダリティ欠失例において、MSA性能を著しく改善することを示した。
論文 参考訳(メタデータ) (2024-11-05T04:04:41Z) - Enhancing Unimodal Latent Representations in Multimodal VAEs through Iterative Amortized Inference [20.761803725098005]
マルチモーダル変分オートエンコーダ(VAE)は、異なるデータモダリティからの情報を統合することで、共有潜在表現をキャプチャすることを目的としている。
重要な課題は、あらゆる可能なモダリティの組み合わせに対して、非現実的な数の推論ネットワークを訓練することなく、任意のモダリティのサブセットから正確に表現を推論することである。
本稿では,マルチモーダルVAEフレームワーク内での反復的改善機構であるマルチモーダル反復補正推論を導入する。
論文 参考訳(メタデータ) (2024-10-15T08:49:38Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Combining State-of-the-Art Models with Maximal Marginal Relevance for
Few-Shot and Zero-Shot Multi-Document Summarization [0.6690874707758508]
多文書要約(MDS)は、単一文書要約(SDS)によって生じるものよりも多くの課題を研究者にもたらす
我々は,MMR(Maximal marginal Relevance)を用いた最先端モデルの出力の組み合わせ戦略を提案する。
我々のMMRベースのアプローチは、少数ショットMDSアプリケーションとゼロショットMDSアプリケーションの両方において、現在の最先端の成果のいくつかの側面よりも改善されている。
論文 参考訳(メタデータ) (2022-11-19T21:46:31Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - A Novel Unified Conditional Score-based Generative Framework for
Multi-modal Medical Image Completion [54.512440195060584]
我々は、スコアベース生成モデル(SGM)を活用するために、統一多モードスコアベース生成モデル(UMM-CSGM)を提案する。
UMM-CSGMは、新しいマルチインマルチアウトコンディションスコアネットワーク(mm-CSN)を用いて、クロスモーダル条件分布の包括的集合を学習する。
BraTS19データセットの実験により、UMM-CSGMは腫瘍誘発病変における不均一な増強と不規則な領域をより確実に合成できることが示された。
論文 参考訳(メタデータ) (2022-07-07T16:57:21Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - How to Sense the World: Leveraging Hierarchy in Multimodal Perception
for Robust Reinforcement Learning Agents [9.840104333194663]
我々は表現モデルの設計における階層性を主張し、新しいマルチモーダル表現モデルであるMUSEに貢献する。
MUSEは,アタリゲームにおけるマルチモーダル観察を備えた深層強化学習エージェントの感覚表現モデルである。
我々は、強化学習エージェントの異なる設計に関する比較研究を行い、MUSEは、エージェントが最小性能の損失で不完全な知覚経験の下でタスクを実行できることを示した。
論文 参考訳(メタデータ) (2021-10-07T16:35:23Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。