論文の概要: Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach
- arxiv url: http://arxiv.org/abs/2605.20674v1
- Date: Wed, 20 May 2026 03:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.466064
- Title: Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach
- Title(参考訳): ファインチューニングのないモジュール型マルチモーダル分類:簡単な構成的アプローチ
- Authors: Herman Bergström, Aditya Mehrotra, Rahul G. Krishnan,
- Abstract要約: 我々は,textbfTabular 基礎モデルを用いた textbfModality textbfEncoders を導入した CoMET, textittextbfComposing textbfModality textbfEncoders を紹介する。
提案手法は, 様々なマルチモーダルベンチマークにおいて, トレーニングを伴わずに, 最新の結果が得られる。
- 参考スコア(独自算出の注目度): 10.561568484274044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce CoMET, \textit{\textbf{C}omposing \textbf{M}odality \textbf{E}ncoders with \textbf{T}abular foundation models}, a simple yet highly competitive method for multimodal classification: pass each modality through a frozen pre-trained backbone, compress the resulting embeddings with PCA, and concatenate as input into a Tabular Foundation Model (TFM) for prediction. We show that PCA alone suffices to act as an adaptor yielding strong, robust performance across modalities. When the \texttt{CLS} tokens of the foundation model align poorly with downstream tasks, we propose \textbf{PALPooling}, a lightweight adaptive token pooler that consistently improves representation quality. By composing strong frozen representation learning backbones with TFMs, our approach achieves state-of-the-art results across diverse multimodal benchmarks without any training. On hierarchical tasks with large fine-grained class spaces, our approach enables fast and scalable classification, handling datasets with over 500,000 samples and 2,000 classes without any fine-tuning. Overall, our results show that the composition of foundation models is a simple, yet powerful, out-of-the-box solution for multimodal learning, challenging the necessity of complex, end-to-end training pipelines for new problems.
- Abstract(参考訳): CoMET, \textit{\textbf{C}omposing \textbf{M}odality \textbf{E}ncoders with \textbf{T}abular foundation model}, a simple yet competitive method for multimodal classification: pass each modality through a frozen pre-trained backbone, compress the result embeddeds with PCA, and concatenate as input into a Tabular Foundation Model (TFM) for predict。
そこで本研究では,PCAのみを適応器として機能させるだけで,モダリティの強い堅牢な性能が得られることを示す。
基礎モデルの \texttt{CLS} トークンが下流のタスクとうまく一致しない場合、表現品質を一貫して改善する軽量適応型トークンプーラである \textbf{PALPooling} を提案する。
TFMと強力な凍結表現学習バックボーンを合成することにより、トレーニングなしで様々なマルチモーダルベンチマークにまたがって最先端の結果が得られる。
大規模できめ細かいクラス空間を持つ階層的タスクでは,50,000以上のサンプルと2,000以上のクラスでデータセットを微調整することなく,高速でスケーラブルな分類が可能となる。
総合的な結果から,基礎モデルの合成は,マルチモーダル学習のためのシンプルでパワフルなアウト・オブ・ザ・ボックスのソリューションであり,新しい問題に対する複雑なエンドツーエンドのトレーニングパイプラインの必要性に疑問を呈している。
関連論文リスト
- Fine-tuning MLLMs Without Forgetting Is Easier Than You Think [72.59321247529975]
分布内および分布外画像およびテキスト入力のモデル性能を評価するための2x2実験フレームワークを設計する。
その結果、トレーニング可能なパラメータの数を制限したり、低学習率を採用するなど、適切な正規化が、アウト・オブ・ディストリビューション・イメージを扱う際の忘れを効果的に防止できることが示唆された。
我々は、このことをタスク固有のオーバーフィッティングとみなし、データハイブリッドトレーニング戦略を導入することでこの問題に対処する。
論文 参考訳(メタデータ) (2026-03-15T17:16:19Z) - Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。
本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。
本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T15:45:08Z) - MultiModal Fine-tuning with Synthetic Captions [9.572235167281686]
MLLM(Multimodal Large Language Models)を用いた一様データセットをマルチモーダルモデルに変換する新しい手法を提案する。
本手法では,クラスラベルとドメインコンテキストを組み込んで,分類タスクの高品質なキャプションを生成するために,慎重に設計したプロンプトを用いる。
我々の研究は、マルチモーダル事前学習と微調整のギャップを効果的に橋渡しするデータセット拡張のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-29T09:03:45Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - With Limited Data for Multimodal Alignment, Let the STRUCTURE Guide You [3.3384874808567173]
マルチモーダルモデルは、マルチモーダルアライメント、ゼロショット分類、クロスモーダル検索を必要とする複雑なタスクにおいて強力な機能を示した。
既存のモデルは通常、数百万対のサンプルを頼りにしている。
そこで本研究では,一様層の潜伏空間を保存する効果的な正則化手法を提案する。
これら2つのコンポーネントは、既存のアライメント手法に簡単に組み込むことができ、24のゼロショット画像分類と検索ベンチマークでかなりの利得が得られる。
論文 参考訳(メタデータ) (2025-06-20T10:32:54Z) - Leveraging Foundation Models for Multi-modal Federated Learning with Incomplete Modality [41.79433449873368]
我々は、事前学習完了(FedMVP)を用いた新しいマルチモーダル・コントラスト学習法、フェデレーション・マルチモーダル・コントラストVeトレーニングを提案する。
FedMVPは、大規模な事前トレーニングモデルを統合して、フェデレーショントレーニングを強化する。
実世界の2つの画像テキスト分類データセットよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-16T19:18:06Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。