論文の概要: Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment
- arxiv url: http://arxiv.org/abs/2506.06970v1
- Date: Sun, 08 Jun 2025 02:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.591622
- Title: Guiding Cross-Modal Representations with MLLM Priors via Preference Alignment
- Title(参考訳): 優先アライメントによるMLLM先行表現の案内
- Authors: Pengfei Zhao, Rongbo Luan, Wei Zhang, Peng Wu, Sifeng He,
- Abstract要約: クロスモーダル表現学習を導く新しいフレームワークであるMAPLE(Modality-Aligned Preference Learning for Embeddings)を紹介する。
MaPLEは、学習過程を強化学習として定式化し、既成のMLLMを用いた自動選好データ構築と、新たなRPA(Relative Preference Alignment)損失という2つの重要な要素を定式化している。
実験結果から,我々の嗜好誘導アライメントは細粒度クロスモーダル検索において著しく向上することが示された。
- 参考スコア(独自算出の注目度): 11.460393501694021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite Contrastive Language-Image Pretraining (CLIP)'s remarkable capability to retrieve content across modalities, a substantial modality gap persists in its feature space. Intriguingly, we discover that off-the-shelf MLLMs (Multimodal Large Language Models) demonstrate powerful inherent modality alignment properties. While recent MLLM-based retrievers with unified architectures partially mitigate this gap, their reliance on coarse modality alignment mechanisms fundamentally limits their potential. In this work, We introduce MAPLE (Modality-Aligned Preference Learning for Embeddings), a novel framework that leverages the fine grained alignment priors inherent in MLLM to guide cross modal representation learning. MAPLE formulates the learning process as reinforcement learning with two key components: (1) Automatic preference data construction using off-the-shelf MLLM, and (2) a new Relative Preference Alignment (RPA) loss, which adapts Direct Preference Optimization (DPO) to the embedding learning setting. Experimental results show that our preference-guided alignment achieves substantial gains in fine-grained cross-modal retrieval, underscoring its effectiveness in handling nuanced semantic distinctions.
- Abstract(参考訳): Contrastive Language-Image Pretraining (CLIP) は、モダリティを越えてコンテンツを検索する顕著な能力を持っているにもかかわらず、その特徴空間にはかなりのモダリティギャップが持続している。
興味深いことに、オフザシェルフMLLM(Multimodal Large Language Models)は、強力な固有のモダリティアライメント特性を示す。
MLLMをベースとした最近のレトリバーは、このギャップを部分的に緩和するが、粗いモダリティアライメント機構への依存は、そのポテンシャルを根本的に制限する。
本研究は,MLLMに固有の微粒なアライメントを生かした新しいフレームワークであるMAPLE(Modality-Aligned Preference Learning for Embeddings)を紹介する。
MAPLEは,(1)既成MLLMを用いた自動選好データ構築,(2)直接選好最適化(DPO)を組込み学習環境に適用した新たな相対選好アライメント(RPA)損失の2つの重要な要素を用いて,学習過程を強化学習として定式化する。
実験結果から, 選好誘導アライメントは, 微粒なクロスモーダル検索においてかなりの向上を達成し, ニュアンスド・セマンティックな区別を扱う上での有効性を実証した。
関連論文リスト
- Alignment of large language models with constrained learning [93.2264691508005]
本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
論文 参考訳(メタデータ) (2025-05-26T01:04:56Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [86.21199607040147]
自己改善認知(Self-Improving cognition、SIcog)は、次世代基礎言語モデルを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解手法であるChain-of-Descriptionを導入し、構造化連鎖推論(CoT)を統合し、深いマルチモーダル推論をサポートする。
広範囲にわたる実験により、SIcogはマルチモーダル認知を著しく改善した次世代基盤MLLMを生産することが示された。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本稿では,パラメータ効率の優れた微調整法に基づく効率的な選択的層干渉法を提案する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - Imitating Language via Scalable Inverse Reinforcement Learning [34.161807103808016]
我々は,模倣に対する逆強化学習の観点からの考察に焦点をあてる。
IRLをベースとした模倣には,特にタスク性能を最大化しながら多様性を維持する上で,明らかなメリットがある。
論文 参考訳(メタデータ) (2024-09-02T16:48:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。