論文の概要: HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2502.12148v1
- Date: Mon, 17 Feb 2025 18:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:27.660429
- Title: HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
- Title(参考訳): HermesFlow:マルチモーダル理解と生成においてギャップをシームレスに閉鎖する
- Authors: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui,
- Abstract要約: マルチモーダル大規模言語モデルにおける理解と生成のギャップを埋めるためにHermesFlowを提案する。
データを入力として、理解と生成の両方の好みデータをキュレートする。
HermesFlowは、好みデータを用いたマルチモーダル理解と生成を効果的に調整する。
- 参考スコア(独自算出の注目度): 38.72106485612165
- License:
- Abstract: The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow
- Abstract(参考訳): 自己回帰パラダイムの顕著な成功により、Show-o、Transfusion、Emu3といった強力なモデルによって、マルチモーダル大言語モデル(MLLM)が大幅に進歩し、画像の理解と生成において顕著な進歩を遂げた。
MLLMの理解能力は、一般的にそれらの生成能力よりも強く、両者の間に大きなギャップがある。
この知見に基づいて,MLLMにおける理解と生成のギャップをシームレスに埋めるように設計された,シンプルながら汎用的なフレームワークであるHermesFlowを提案する。
具体的には、同義データを入力として、理解と生成の両方の同義的嗜好データをキュレートする。
Pair-DPOとセルフプレイ反復最適化を通じて、HermesFlowは、ホモロジーな嗜好データを用いて、マルチモーダルな理解と生成を効果的に調整する。
特に,マルチモーダル理解と生成のギャップを狭めるために,従来の手法よりもアプローチが優れていることを示す。
これらの知見は、次世代マルチモーダル基盤モデルの一般的なアライメントフレームワークとしてのHermesFlowの可能性を示している。
コード:https://github.com/Gen-Verse/HermesFlow
関連論文リスト
- SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models [55.25892137362187]
MLLMのためのMMGiCアノテーション(Multimodal Multi-Grained Concept Annotation)を特徴とする新しいデータセットを提案する。
分析の結果,構造化テンプレートと汎用MLLMフレームワークの下で,多義的な概念アノテーションが相互に統合され,補完されることが明らかとなった。
さらに,12のマルチモーダル理解および生成ベンチマークにおいて,MMGiCと画像キャプチャデータとの公正な比較と効果的な協調関係を検証し,我々の仮説を検証した。
論文 参考訳(メタデータ) (2024-12-08T13:45:44Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation [43.50888291380848]
マルチモーダル理解と生成を統合する自動回帰フレームワークであるJanusを紹介する。
Janusは視覚的エンコーディングを別々の経路に分離し、単一の統一トランスフォーマーアーキテクチャを使って処理する。
実験によると、Janusは以前の統一モデルを超え、タスク固有のモデルのパフォーマンスにマッチするか、超えている。
論文 参考訳(メタデータ) (2024-10-17T17:58:37Z) - Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。