論文の概要: LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2603.27693v1
- Date: Sun, 29 Mar 2026 13:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.073749
- Title: LVRPO: Language-Visual Alignment with GRPO for Multimodal Understanding and Generation
- Title(参考訳): LVRPO:マルチモーダル理解と生成のためのGRPOを用いた言語視覚アライメント
- Authors: Shentong Mo, Sukmin Yun,
- Abstract要約: 統一型マルチモーダル事前訓練は,単一の基礎モデル内での言語とビジョンを共同でモデル化するための,有望なパラダイムとして登場した。
既存のアプローチは暗黙的あるいは間接的なアライメント信号に大きく依存しており、マルチモーダル理解と生成を同時にサポートするのに最適である。
LVRPOは言語と視覚的表現を明確に整合させる言語-視覚的強化に基づく嗜好最適化フレームワークである。
- 参考スコア(独自算出の注目度): 51.071351994330605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal pretraining has emerged as a promising paradigm for jointly modeling language and vision within a single foundation model. However, existing approaches largely rely on implicit or indirect alignment signals and remain suboptimal for simultaneously supporting multimodal understanding and generation, particularly in settings that require fine-grained language-visual reasoning and controllable generation. In this work, we propose LVRPO, a language-visual reinforcement-based preference optimization framework that explicitly aligns language and visual representations using Group Relative Policy Optimization (GRPO). Instead of introducing additional alignment losses at the representation level, LVRPO directly optimizes multimodal model behaviors through preference-driven reinforcement signals, encouraging consistent and semantically grounded interactions between language and vision across both understanding and generation tasks. This formulation enables effective alignment without requiring auxiliary encoders or handcrafted cross-modal objectives, and naturally extends to diverse multimodal capabilities. Empirically, LVRPO consistently outperforms strong unified-pretraining baselines on a broad suite of benchmarks spanning multimodal understanding, generation, and reasoning.
- Abstract(参考訳): 統一型マルチモーダル事前訓練は,単一の基礎モデル内での言語とビジョンを共同でモデル化するための,有望なパラダイムとして登場した。
しかし、既存のアプローチは暗黙的あるいは間接的なアライメント信号に大きく依存しており、特に細粒度の言語視覚的推論と制御可能な生成を必要とする設定において、マルチモーダルな理解と生成を同時にサポートするために、サブ最適のままである。
本稿では,グループ相対政策最適化(GRPO)を用いて言語と視覚表現を明確に整合させる言語-視覚的強化に基づく嗜好最適化フレームワークであるLVRPOを提案する。
表現レベルでの追加アライメント損失を導入する代わりに、LVRPOは、優先駆動の強化信号を通じて、マルチモーダルモデルの振る舞いを直接最適化し、理解と生成の両方のタスクを通して言語とビジョン間の一貫性とセマンティックな相互作用を奨励する。
この定式化により、補助エンコーダや手作りのクロスモーダルな目的を必要とせずに効果的なアライメントが可能となり、自然に多様なマルチモーダルな機能に拡張される。
実証的には、LVRPOはマルチモーダル理解、生成、推論にまたがる幅広いベンチマークスイートにおいて、強い統一事前学習ベースラインを一貫して上回っている。
関連論文リスト
- Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization [35.14373974143734]
既存の統一モデルにおいて,この能力を解放するための強化学習に基づくポストトレーニング戦略を提案する。
提案手法は,1つの復号軌道内でのテキスト生成と画像生成を共同でモデル化し,新たなハイブリッド報酬で最適化する。
MMIEとInterleavedBenchの実験により,マルチモーダルインターリーブド生成の品質とコヒーレンスを大幅に向上させることが実証された。
論文 参考訳(メタデータ) (2026-03-10T11:49:20Z) - Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。
我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。
我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文 参考訳(メタデータ) (2026-03-03T18:58:00Z) - HMVLA: Hyperbolic Multimodal Fusion for Vision-Language-Action Models [4.59200581394731]
HMVLAは、視覚と言語における固有の階層構造を利用して、包括的なセマンティックアライメントを実現する。
我々のHMVLAは双曲空間にマルチモーダルな特徴を埋め込んで、画像テキストデータに存在する階層関係をより効果的にモデリングすることを可能にする。
論文 参考訳(メタデータ) (2026-01-28T07:50:30Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Scaling Language-Centric Omnimodal Representation Learning [26.999264997449586]
大規模言語モデル (MLLM) を利用したマルチモーダル埋め込み手法は, 比較学習 (CL) によって微調整され, 有望な結果が得られた。
この研究は、MLLMに基づくアプローチの重要な利点は、生成前訓練中に達成される暗黙の相互モーダルアライメントに起因していると主張している。
我々はLCO-Embと呼ばれる言語中心のOmnimodal Embeddingフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:53:52Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Improving Multilingual Language Models by Aligning Representations through Steering [10.159957091670883]
本稿では,Large Language Models (LLM) が非英語トークンをどのように表現するかを検討する。
表現ステアリングを用いた軽量な介入手法を提案し、学習ベクトルを1つのモデル層における残差ストリームに追加し、多言語性能を向上させる。
論文 参考訳(メタデータ) (2025-05-19T00:14:43Z) - Relation-R1: Progressively Cognitive Chain-of-Thought Guided Reinforcement Learning for Unified Relation Comprehension [31.952192907460713]
Relation-R1は、テキストファーストの統一関係理解フレームワークである。
認知連鎖(CoT)誘導型微調整(SFT)とグループ相対政策最適化(GRPO)を統合している。
広く使われているPSGデータセットとSWiGデータセットの実験により、リレーショナルR1はバイナリとtextitN-aryリレーショナル理解の両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-04-20T14:50:49Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。