論文の概要: MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
- arxiv url: http://arxiv.org/abs/2510.23479v1
- Date: Mon, 27 Oct 2025 16:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.612295
- Title: MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding
- Title(参考訳): MergeMix: ビジュアルおよびマルチモーダル理解のための統一された拡張パラダイム
- Authors: Xin Jin, Siyuan Li, Siyong Jian, Kai Yu, Huan Wang,
- Abstract要約: MergeMixは、SFTとRLを橋渡しするトレーニング時間拡張パラダイムである。
まず、トークンマージによる注意認識画像の混合と、より多くのクラスタ表現と空間コンテキストを適用する。
次に、MLLMに対して、画像と生画像の混合による選好ペアの構築と、SimPO損失による最適化により、嗜好駆動トレーニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 23.96717124380285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language alignment in multi-modal large language models (MLLMs) typically relies on supervised fine-tuning (SFT) or reinforcement learning (RL). SFT is stable and efficient but requires large-scale human annotations and cannot capture subtle preferences, while RL brings in a reward signal for training, but suffers from overhead and instability. These limitations highlight a trade-off between scalability, robustness, and alignment quality. To address this, we propose MergeMix, a training-time augmentation paradigm that bridges SFT and RL. It first applies an attention-aware image mixing via token merge with more cluster representation and spatial context, and then presents a preference-driven training paradigm for MLLMs by building preference pairs with mixed images and raw images, and optimizing via SimPO loss. As a mixup augmentation, MergeMix enhances attention consistency and efficiency, surpassing other heuristic-based methods in classification. Extensive experiments demonstrate that MergeMix achieves competitive accuracy with improved efficiency, providing a scalable approach to preference alignment in classification and MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)における視覚言語アライメントは通常、教師付き微調整(SFT)や強化学習(RL)に依存している。
SFTは安定して効率的であるが、大規模な人間のアノテーションを必要としており、微妙な好みを捉えることはできない。
これらの制限は、スケーラビリティ、堅牢性、アライメント品質の間のトレードオフを浮き彫りにする。
そこで我々は,SFTとRLを橋渡しする訓練時間拡張パラダイムであるMergeMixを提案する。
まず、トークンマージとよりクラスタ表現と空間コンテキストを併用したアテンション認識画像ミキシングを応用し、続いて、画像と生画像の混合による選好ペアの構築と、SimPOロスによる最適化により、MLLMの嗜好駆動トレーニングパラダイムを提案する。
MergeMixは、ミックスアップの強化として、注意の一貫性と効率を高め、他のヒューリスティックな分類法を超越している。
大規模な実験により、MergeMixは効率を改善して競争精度を向上し、分類やMLLMにおける選好アライメントに対するスケーラブルなアプローチを提供する。
関連論文リスト
- HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。
本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文 参考訳(メタデータ) (2025-10-02T00:40:02Z) - Expert Merging: Model Merging with Unsupervised Expert Alignment and Importance-Guided Layer Chunking [18.604455802016233]
エキスパートマージング(Expert Merging)は、ラベルなしキャリブレーションデータを用いて、少数の層係数を学習するトレーニングライト法である。
層間変異をキャプチャするために、Expert Merging++はこの設計を重要誘導チャンクで強化する。
本手法は, 強力なトレーニングフリーおよびトレーニングベースのマージベースラインを超越した手法である。
論文 参考訳(メタデータ) (2025-09-30T03:16:24Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning [28.111812077758845]
MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う場合、パフォーマンスは劣化する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論を改善する。
論文 参考訳(メタデータ) (2025-07-01T13:48:57Z) - Unbiased Max-Min Embedding Classification for Transductive Few-Shot Learning: Clustering and Classification Are All You Need [83.10178754323955]
わずかなショットラーニングにより、モデルがいくつかのラベル付き例から一般化できる。
本稿では,Unbiased Max-Min Embedding Classification (UMMEC)法を提案する。
本手法は最小ラベル付きデータを用いて分類性能を著しく向上させ, 注釈付きLの最先端化を推し進める。
論文 参考訳(メタデータ) (2025-03-28T07:23:07Z) - Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。
OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文 参考訳(メタデータ) (2025-01-06T21:16:51Z) - SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe [36.74756622715754]
大型言語モデル (LLM) は命令追従能力を得るために命令チューニングを行う。
命令チューニングを改善する努力は、しばしば高品質な教師付き微調整データセットに焦点を当てる。
SFTMixは、よく計算されたデータセットに頼らずにLLM命令のチューニングを向上する新しいMixベースのレシピである。
論文 参考訳(メタデータ) (2024-10-07T17:52:21Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - Pseudo-Bag Mixup Augmentation for Multiple Instance Learning-Based Whole
Slide Image Classification [18.679580844360615]
我々は,MILモデルのトレーニングを改善するために,Pseudo-bag Mixup (PseMix)データ拡張方式を提案する。
提案手法は,一般画像のMixup戦略を疑似バグにより特別なWSIに一般化する。
効率的で分離された手法として設計されており、時間を要する操作やMILモデルの予測に依存しない。
論文 参考訳(メタデータ) (2023-06-28T13:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。