論文の概要: Reinforcing Multimodal Understanding and Generation with Dual Self-rewards
- arxiv url: http://arxiv.org/abs/2506.07963v1
- Date: Mon, 09 Jun 2025 17:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.082953
- Title: Reinforcing Multimodal Understanding and Generation with Dual Self-rewards
- Title(参考訳): デュアル・セルフ・リワードによるマルチモーダル理解と生成の強化
- Authors: Jixiang Hong, Yiran Zhang, Guanzhong Wang, Yi Liu, Ji-Rong Wen, Rui Yan,
- Abstract要約: 大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
- 参考スコア(独自算出の注目度): 56.08202047680044
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Building upon large language models (LLMs), recent large multimodal models (LMMs) unify cross-model understanding and generation into a single framework. However, LMMs still struggle to achieve accurate image-text alignment, prone to generating text responses contradicting the visual input or failing to follow the text-to-image prompts. Current solutions require external supervision (e.g., human feedback or reward models) and only address unidirectional tasks-either understanding or generation. In this work, based on the observation that understanding and generation are inverse dual tasks, we introduce a self-supervised dual reward mechanism to reinforce the understanding and generation capabilities of LMMs. Specifically, we sample multiple outputs for a given input in one task domain, then reverse the input-output pairs to compute the dual likelihood of the model as self-rewards for optimization. Extensive experimental results on visual understanding and generation benchmarks demonstrate that our method can effectively enhance the performance of the model without any external supervision, especially achieving remarkable improvements in text-to-image tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づいて、最近の大規模マルチモーダルモデル(LMM)は、クロスモデルの理解と生成を単一のフレームワークに統合する。
しかし、LMMは正確な画像テキストアライメントの実現に苦慮し、視覚的な入力に矛盾するテキスト応答や、テキスト・ツー・イメージのプロンプトに従わなかった。
現在のソリューションでは、外部の監督(例えば、人間のフィードバックや報酬モデル)を必要とし、一方向のタスク(理解や生成)にのみ対処する。
本研究では,LMMの理解と生成能力を強化するための自己監督型二重報酬機構を導入する。
具体的には、1つのタスク領域で与えられた入力に対して複数の出力をサンプリングし、次に入力と出力のペアを逆転させてモデルの双対ポテンシャルを最適化の自己回帰として計算する。
視覚的理解と生成のベンチマークに関する大規模な実験結果から,本手法は外部の監督なしに効果的にモデルの性能を向上させることが可能であり,特にテキスト・ツー・イメージのタスクにおいて顕著な改善が達成できることが示された。
関連論文リスト
- Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - CAFe: Unifying Representation and Generation with Contrastive-Autoregressive Finetuning [24.981279071712173]
本稿では,LVLMを表現タスクと生成タスクの両方に拡張する,対照的に自己回帰的な微調整フレームワークであるCAFeを紹介する。
提案手法は,従来のタスクを統一し,マルチモーダル検索とマルチモーダル生成ベンチマークの両面で最先端の結果を得る。
論文 参考訳(メタデータ) (2025-03-25T17:57:17Z) - ARMOR: Empowering Multimodal Understanding Model with Interleaved Multimodal Generation Capability [14.703591553247948]
ARMORは、マルチモーダルな大規模言語モデルのためのリソース効率が高く純粋な自動回帰フレームワークである。
既存のMLLMを微調整することで、理解と生成を両立させる。
ARMOR は,既存の MLLM を UniM にアップグレードし,将来性のある画像生成機能を実現する。
論文 参考訳(メタデータ) (2025-03-09T10:15:39Z) - VARGPT: Unified Understanding and Generation in a Visual Autoregressive Multimodal Large Language Model [38.61292051733335]
VARGPTは,単一の自己回帰フレームワーク内で視覚的理解と生成を統一する,新しいマルチモーダル大規模言語モデルである。
VarGPTは視覚理解のための次世代予測パラダイムと、視覚自己回帰生成のための次世代予測パラダイムを採用している。
特に、VARGPTは自己回帰的視覚生成と命令-画像合成の能力を自然にサポートし、視覚的理解と生成の両タスクにおいてその汎用性を示す。
論文 参考訳(メタデータ) (2025-01-21T17:50:43Z) - SILMM: Self-Improving Large Multimodal Models for Compositional Text-to-Image Generation [92.73405185996315]
大規模マルチモーダルモデル(LMM)は、マルチモーダル理解と生成において印象的な能力を示した。
マルチステップ生成のためのレイアウト計画や、人間のフィードバックやAIフィードバックからの学習など、既存のアプローチは、迅速なエンジニアリングに大きく依存している。
モデルに依存しない反復型自己フィードバックフレームワーク(SILMM)を導入し,LMMが有用でスケーラブルな自己改善を実現し,テキスト画像のアライメントを最適化する。
論文 参考訳(メタデータ) (2024-12-08T05:28:08Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。