論文の概要: LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.14147v1
- Date: Sun, 15 Feb 2026 13:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.669964
- Title: LaViDa-R1: Advancing Reasoning for Unified Multimodal Diffusion Language Models
- Title(参考訳): LaViDa-R1:Unified Multimodal Diffusion Language Modelの強化
- Authors: Shufan Li, Yuchen Zhu, Jiuxiang Gu, Kangning Liu, Zhe Lin, Yongxin Chen, Molei Tao, Aditya Grover, Jason Kuen,
- Abstract要約: マルチモーダルな汎用推論dLLMであるLaViDa-R1を提案する。
LaViDa-R1は多様なマルチモーダル理解と生成タスクを統一的に組み込んでいる。
応答強制、木探索、補完的推定など、いくつかの新しいトレーニング技術を採用している。
- 参考スコア(独自算出の注目度): 86.78753308621462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion language models (dLLMs) recently emerged as a promising alternative to auto-regressive LLMs. The latest works further extended it to multimodal understanding and generation tasks. In this work, we propose LaViDa-R1, a multimodal, general-purpose reasoning dLLM. Unlike existing works that build reasoning dLLMs through task-specific reinforcement learning, LaViDa-R1 incorporates diverse multimodal understanding and generation tasks in a unified manner. In particular, LaViDa-R1 is built with a novel unified post-training framework that seamlessly integrates supervised finetuning (SFT) and multi-task reinforcement learning (RL). It employs several novel training techniques, including answer-forcing, tree search, and complementary likelihood estimation, to enhance effectiveness and scalability. Extensive experiments demonstrate LaViDa-R1's strong performance on a wide range of multimodal tasks, including visual math reasoning, reason-intensive grounding, and image editing.
- Abstract(参考訳): 拡散言語モデル(dLLMs)は、最近、自動回帰型LLMに代わる有望な代替品として登場した。
最新の研究により、マルチモーダルな理解と生成タスクにまで拡張された。
本研究では,マルチモーダルな汎用推論dLLMであるLaViDa-R1を提案する。
タスク固有の強化学習を通じてdLLMを推論する既存の作業とは異なり、LaViDa-R1は多様なマルチモーダル理解と生成タスクを統一的に組み込んでいる。
特にLaViDa-R1は、教師付き微調整(SFT)とマルチタスク強化学習(RL)をシームレスに統合する新しい統合後トレーニングフレームワークで構築されている。
有効性とスケーラビリティを高めるために、応答強制、木探索、補完的推定など、いくつかの新しいトレーニング技術を採用している。
広範囲にわたるマルチモーダルタスクにおいて、LaViDa-R1の強力な性能を示す実験は、視覚数学の推論、理由集中グラウンド、画像編集などである。
関連論文リスト
- NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Generative Multimodal Models are In-Context Learners [60.50927925426832]
我々は37億のパラメータを持つ生成的マルチモーダルモデルであるEmu2を紹介し、大規模マルチモーダルシーケンスで訓練する。
Emu2は、マルチモーダルなインコンテキスト学習能力を示し、オンザフライ推論を必要とするタスクを解決しようとさえしている。
論文 参考訳(メタデータ) (2023-12-20T18:59:58Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。