論文の概要: HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2502.12148v1
- Date: Mon, 17 Feb 2025 18:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:10:27.660429
- Title: HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
- Title(参考訳): HermesFlow:マルチモーダル理解と生成においてギャップをシームレスに閉鎖する
- Authors: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui,
- Abstract要約: マルチモーダル大規模言語モデルにおける理解と生成のギャップを埋めるためにHermesFlowを提案する。
データを入力として、理解と生成の両方の好みデータをキュレートする。
HermesFlowは、好みデータを用いたマルチモーダル理解と生成を効果的に調整する。
- 参考スコア(独自算出の注目度): 38.72106485612165
- License:
- Abstract: The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow
- Abstract(参考訳): 自己回帰パラダイムの顕著な成功により、Show-o、Transfusion、Emu3といった強力なモデルによって、マルチモーダル大言語モデル(MLLM)が大幅に進歩し、画像の理解と生成において顕著な進歩を遂げた。
MLLMの理解能力は、一般的にそれらの生成能力よりも強く、両者の間に大きなギャップがある。
この知見に基づいて,MLLMにおける理解と生成のギャップをシームレスに埋めるように設計された,シンプルながら汎用的なフレームワークであるHermesFlowを提案する。
具体的には、同義データを入力として、理解と生成の両方の同義的嗜好データをキュレートする。
Pair-DPOとセルフプレイ反復最適化を通じて、HermesFlowは、ホモロジーな嗜好データを用いて、マルチモーダルな理解と生成を効果的に調整する。
特に,マルチモーダル理解と生成のギャップを狭めるために,従来の手法よりもアプローチが優れていることを示す。
これらの知見は、次世代マルチモーダル基盤モデルの一般的なアライメントフレームワークとしてのHermesFlowの可能性を示している。
コード:https://github.com/Gen-Verse/HermesFlow
関連論文リスト
- FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [64.50893177169996]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルなヘテロジニアスシナリオにおけるMLLMのファインチューニングにおける様々なダウンストリームタスクを評価するためのベンチマークを提案する。
我々は,2つのモダリティに依存しない戦略とともに,4つの代表的FL手法を統合する汎用FedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z) - Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation [43.50888291380848]
マルチモーダル理解と生成を統合する自動回帰フレームワークであるJanusを紹介する。
Janusは視覚的エンコーディングを別々の経路に分離し、単一の統一トランスフォーマーアーキテクチャを使って処理する。
実験によると、Janusは以前の統一モデルを超え、タスク固有のモデルのパフォーマンスにマッチするか、超えている。
論文 参考訳(メタデータ) (2024-10-17T17:58:37Z) - Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Improving Multimodal Joint Variational Autoencoders through Normalizing
Flows and Correlation Analysis [0.0]
一方向後部はディープ・カノニカル・相関解析(英語版)の埋め込みで条件付けされている。
また、正規化フローを使用して、単調な後部を豊かにし、より多様なデータ生成を実現しています。
論文 参考訳(メタデータ) (2023-05-19T17:15:34Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。