Fugu-MT 論文翻訳(概要): JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

論文の概要: JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation

arxiv url: http://arxiv.org/abs/2411.07975v1
Date: Tue, 12 Nov 2024 17:55:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.00938
Title: JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation
Title（参考訳）: JanusFlow: 統一マルチモーダル理解と生成のための自己回帰と整流の調和
Authors: Yiyang Ma, Xingchao Liu, Xiaokang Chen, Wen Liu, Chengyue Wu, Zhiyu Wu, Zizheng Pan, Zhenda Xie, Haowei Zhang, Xingkai yu, Liang Zhao, Yisong Wang, Jiaying Liu, Chong Ruan,
Abstract要約: 画像の理解と生成を単一のモデルで統一する強力なフレームワークであるJanusFlowを紹介します。 JanusFlowは自動回帰言語モデルと修正フローを統合する。
参考スコア（独自算出の注目度）: 36.93638123812204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications. To further improve the performance of our unified model, we adopt two key strategies: (i) decoupling the understanding and generation encoders, and (ii) aligning their representations during unified training. Extensive experiments show that JanusFlow achieves comparable or superior performance to specialized models in their respective domains, while significantly outperforming existing unified approaches across standard benchmarks. This work represents a step toward more efficient and versatile vision-language models.
Abstract（参考訳）: 画像の理解と生成を単一のモデルで統一する強力なフレームワークであるJanusFlowを紹介します。 JanusFlowは、自動回帰言語モデルと修正フローを統合するミニマリストアーキテクチャを導入している。私たちのキーとなる発見は、修正されたフローが大きな言語モデルフレームワーク内で容易にトレーニング可能であることを示し、複雑なアーキテクチャ変更の必要性を排除しています。統一モデルの性能をさらに向上させるために、我々は2つの重要な戦略を採用した。一理解・生成エンコーダの分離及び (二統一訓練中に表象を整列すること。) 大規模な実験により、JanusFlowは各ドメインの特別なモデルと同等または優れたパフォーマンスを達成し、標準ベンチマークにおける既存の統一アプローチを著しく上回る結果となった。この研究は、より効率的で多用途な視覚言語モデルに向けた一歩である。

関連論文リスト

Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。 Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文参考訳（メタデータ） (2025-06-24T17:58:02Z)
Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文参考訳（メタデータ） (2025-06-17T15:06:07Z)
Policy Optimized Text-to-Image Pipeline Design [72.87655664038617]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文参考訳（メタデータ） (2025-05-27T17:50:47Z)
Boosting Generative Image Modeling via Joint Image-Feature Synthesis [10.32324138962724]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文参考訳（メタデータ） (2025-04-22T17:41:42Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
HM3: Hierarchical Multi-Objective Model Merging for Pretrained Models [28.993221775758702]
モデルマージ(英: Model merging)は、複数の大きな事前訓練されたモデルを単一のモデルに組み合わせ、パフォーマンスを向上し、タスク適応性を高める手法である。本稿では,よりフレキシブルで包括的なモデルマージ技術への大きな進歩を示す。我々は、重みベクトルのオフラインサンプリングを用いてポリシーと価値ネットワークを訓練し、マージ戦略のオンライン最適化に使用される。
論文参考訳（メタデータ） (2024-09-27T16:31:31Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)
MCAD: Multi-teacher Cross-modal Alignment Distillation for efficient image-text retrieval [7.233106731197739]
本稿では,MCAD(Multi-Teacher Cross-modality Alignment Distillation)手法を提案する。 Snapdragon/Dimensityチップ上での軽量CLIPモデルを実装し,動作メモリが$sim$100M,検索遅延が$sim$8.0msである。
論文参考訳（メタデータ） (2023-10-30T15:38:43Z)
Unifying Generative Models with GFlowNets [85.38102320953551]
本稿では, 既存の深層生成モデルとGFlowNetフレームワークの関連性について, 重なり合う特性に光を当てて概説する。これは、トレーニングと推論アルゴリズムを統一する手段を提供し、生成モデルの集合を構築するためのルートを提供する。
論文参考訳（メタデータ） (2022-09-06T15:52:51Z)
Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-06-14T06:28:04Z)
Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文参考訳（メタデータ） (2021-10-21T13:04:21Z)
Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文参考訳（メタデータ） (2020-04-08T09:07:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。