論文の概要: ES-Merging: Biological MLLM Merging via Embedding Space Signals
- arxiv url: http://arxiv.org/abs/2603.14405v1
- Date: Sun, 15 Mar 2026 14:38:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.791607
- Title: ES-Merging: Biological MLLM Merging via Embedding Space Signals
- Title(参考訳): ES-Merging:宇宙信号の埋め込みによる生物MLLMの融合
- Authors: Wonbin Lee, Dongki Kim, Sung Ju Hwang,
- Abstract要約: 埋め込み空間信号からマージ係数を推定する表現対応マージフレームワークを提案する。
提案手法は既存のマージ手法よりも優れており,タスク固有の微調整モデルを超えている。
- 参考スコア(独自算出の注目度): 52.84455878597969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological multimodal large language models (MLLMs) have emerged as powerful foundation models for scientific discovery. However, existing models are specialized to a single modality, limiting their ability to solve inherently cross-modal scientific problems. While model merging is an efficient method to combine the different modalities into a unified MLLM, existing methods rely on input-agnostic parameter space heuristics that fail to faithfully capture modality specialization. To overcome this limitation, we propose a representation-aware merging framework that estimates merging coefficients from embedding space signals. We first design a probe input that consists of different modality tokens and forward it through each specialized MLLM to obtain layer-wise embedding responses that reflect modality-specific representation changes. We then estimate complementary merging coefficients at two granularities from the embedding space: layer-wise coefficients from coarse-grained signals and element-wise coefficients from fine-grained signals, which are jointly combined for robust coefficient estimation. Experiments on interactive effect prediction benchmarks show that our method outperforms existing merging methods and even surpasses task-specific fine-tuned models, establishing that embedding space signals provide a principled and effective foundation for cross-modal MLLM merging.
- Abstract(参考訳): 生物多モーダル大規模言語モデル(MLLM)は、科学的発見のための強力な基礎モデルとして登場した。
しかし、既存のモデルは単一のモダリティに特化しており、本質的にクロスモーダルな科学的問題を解く能力を制限する。
モデルマージは、異なるモダリティを統一MLLMに結合する効率的な手法であるが、既存の手法は、モダリティの特殊化を忠実に捉えることができない入力非依存のパラメータ空間ヒューリスティックに依存している。
この制限を克服するために、埋め込み空間信号からマージ係数を推定する表現対応マージフレームワークを提案する。
まず、異なるモダリティトークンからなるプローブ入力を設計し、各特殊なMLLMを通して転送し、モダリティ固有の表現変化を反映した層単位での埋め込み応答を得る。
次に, 埋め込み空間から2つの粒度の相補的マージ係数を推定する: 粗粒度信号の層次係数と細粒度信号の要素次係数である。
インタラクティブエフェクト予測ベンチマーク実験により,本手法は既存のマージ手法よりも優れており,タスク固有の微調整モデルを超え,埋め込み空間信号がクロスモーダルMLLMマージの原理的かつ効果的な基礎を提供することを確認した。
関連論文リスト
- Leveraging Shared Prototypes for a Multimodal Pulse Motion Foundation Model [4.895784700544358]
ProtoMMは、共通の埋め込み空間に不均一なモダリティを固定するために、共有プロトタイプ辞書を導入する新しいフレームワークである。
明示的なネガティブサンプリングではなく,共有プロトタイプを囲む表現をクラスタリングすることで,モダリティ間の相補的な情報を捕捉し,生理的信号に対するコヒーレントな"共通言語"を提供する。
論文 参考訳(メタデータ) (2025-10-10T18:13:38Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - UGD-IML: A Unified Generative Diffusion-based Framework for Constrained and Unconstrained Image Manipulation Localization [19.797719494981923]
拡散モデルに基づく新しい生成フレームワークUGD-IMLを提案する。
UGD-IMLは、平均9.66と4.36のSOTAメソッドよりも、AIMとCIMLタスクのF1メトリックスで優れていることを示す。
論文 参考訳(メタデータ) (2025-08-08T08:00:28Z) - Graft: Integrating the Domain Knowledge via Efficient Parameter Synergy for MLLMs [56.76586846269894]
MLLM(Multimodal Large Language Models)は、様々な領域で成功している。
その重要性にもかかわらず、ドメイン固有のMLLM間の知識共有の研究はほとんど未調査のままである。
専門家機能のモジュール構成を可能にする統一パラメータ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-30T15:07:41Z) - AdaMMS: Model Merging for Heterogeneous Multimodal Large Language Models with Unsupervised Coefficient Optimization [86.8133939108057]
異種MLLMに適した新しいモデルマージ手法であるAdaMMSを提案する。
提案手法は,マッピング,マージ,検索という3段階の課題に対処する。
ラベル付きデータ無しで異種MLLMをマージできる最初のモデルマージ手法として、AdaMMSは様々なビジョンベンチマークで過去のモデルマージ手法より優れている。
論文 参考訳(メタデータ) (2025-03-31T05:13:02Z) - Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。
評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文 参考訳(メタデータ) (2025-03-27T08:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。