論文の概要: ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology
- arxiv url: http://arxiv.org/abs/2511.02946v1
- Date: Tue, 04 Nov 2025 19:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.226733
- Title: ProM3E: Probabilistic Masked MultiModal Embedding Model for Ecology
- Title(参考訳): ProM3E:エコロジーのための確率的マスク付きマルチモーダル埋め込みモデル
- Authors: Srikumar Sastry, Subash Khanal, Aayush Dhakal, Jiayu Lin, Dan Cher, Phoenix Jarosz, Nathan Jacobs,
- Abstract要約: ProM3Eは、エコロジーのためのあらゆる世代のマルチモーダル表現のためのマスク付きマルチモーダル埋め込みモデルである。
設計により、我々のモデルは埋め込み空間におけるモダリティ反転をサポートする。
モーダル間類似点とモーダル間類似点を混合して,全ての検索タスクにおいて優れた性能を実現する,新たなクロスモーダル検索手法を提案する。
- 参考スコア(独自算出の注目度): 19.17623860216468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ProM3E, a probabilistic masked multimodal embedding model for any-to-any generation of multimodal representations for ecology. ProM3E is based on masked modality reconstruction in the embedding space, learning to infer missing modalities given a few context modalities. By design, our model supports modality inversion in the embedding space. The probabilistic nature of our model allows us to analyse the feasibility of fusing various modalities for given downstream tasks, essentially learning what to fuse. Using these features of our model, we propose a novel cross-modal retrieval approach that mixes inter-modal and intra-modal similarities to achieve superior performance across all retrieval tasks. We further leverage the hidden representation from our model to perform linear probing tasks and demonstrate the superior representation learning capability of our model. All our code, datasets and model will be released at https://vishu26.github.io/prom3e.
- Abstract(参考訳): 本稿では,確率論的マスク付きマルチモーダル埋め込みモデルであるProM3Eを紹介する。
ProM3Eは、埋め込み空間におけるマスク付きモダリティ再構成に基づいており、いくつかの文脈のモダリティから欠落したモダリティを推測することを学ぶ。
設計により、我々のモデルは埋め込み空間におけるモダリティ反転をサポートする。
モデルの確率的性質は、与えられた下流のタスクに対して様々なモダリティを融合させる可能性を分析し、本質的に何が融合すべきかを学習することを可能にする。
これらの特徴を生かして,モーダル間類似とモーダル間類似を混合し,全ての検索タスクにおいて優れた性能を実現する,新たなクロスモーダル検索手法を提案する。
さらに、モデルから隠された表現を活用して線形探索を行い、モデルの優れた表現学習能力を実証する。
コード、データセット、モデルはすべてhttps://vishu26.github.io/prom3e.comからリリースされます。
関連論文リスト
- NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging [124.91183814854126]
モデルマージは、複数のエキスパートモデルをひとつのモデルに組み合わせようとしている。
本稿ではMLLMのトレーニングと評価のタスクを明確に分割したモデルマージ研究のベンチマークを紹介する。
モデルマージは、トレーニングデータを必要とせずに改善されたMLLMを構築するための有望な方法であることがわかった。
論文 参考訳(メタデータ) (2025-05-26T12:23:14Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
幅広い下流タスクを扱える普遍的な埋め込みを構築する可能性について検討する。
We build a series of VLM2Vec model on SoTA VLMs like Phi-3.5-V, LLaVA-1.6 and evaluate them on MMEB's evaluation split。
以上の結果から,VLM2Vecは既存のマルチモーダル埋め込みモデルよりも10%から20%の絶対的な平均的改善を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - 4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities [17.374241865041856]
1つのモデルをトレーニングすることで、既存のモデルよりも少なくとも3倍多くのタスク/モダリティを解決し、パフォーマンスを損なうことなくそれを実行することが可能であることを示す。
数十のモダリティと異なるデータセットを使用して、トレーニングを30億のパラメータモデルに拡張することに成功しました。
得られたモデルとトレーニングコードは4m.epfl.chでオープンソース化されている。
論文 参考訳(メタデータ) (2024-06-13T17:59:42Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - MHVAE: a Human-Inspired Deep Hierarchical Generative Model for
Multimodal Representation Learning [8.70928211339504]
表現学習のための階層型マルチモーダル生成モデルであるMHVAE(Multimodal Hierarchical Vari Auto-Encoder)をコントリビュートする。
人間の認知モデルにインスパイアされたMHVAEは、モダリティ固有の分布と、モダリティ間の推論に責任を持つ共同モダリティ分布を学習することができる。
本モデルは,任意の入力モダリティと相互モダリティ推定による共同モダリティ再構成に関する他の最先端生成モデルと同等に機能する。
論文 参考訳(メタデータ) (2020-06-04T16:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。