Fugu-MT 論文翻訳(概要): Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

論文の概要: Unified Autoregressive Visual Generation and Understanding with Continuous Tokens

arxiv url: http://arxiv.org/abs/2503.13436v1
Date: Mon, 17 Mar 2025 17:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:58.432982
Title: Unified Autoregressive Visual Generation and Understanding with Continuous Tokens
Title（参考訳）: 統合された自己回帰型ビジュアル生成と継続的トークンによる理解
Authors: Lijie Fan, Luming Tang, Siyang Qin, Tianhong Li, Xuan Yang, Siyuan Qiao, Andreas Steiner, Chen Sun, Yuanzhen Li, Tao Zhu, Michael Rubinstein, Michalis Raptis, Deqing Sun, Radu Soricut,
Abstract要約: We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
参考スコア（独自算出の注目度）: 52.21981295470491
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present UniFluid, a unified autoregressive framework for joint visual generation and understanding leveraging continuous visual tokens. Our unified autoregressive architecture processes multimodal image and text inputs, generating discrete tokens for text and continuous tokens for image. We find though there is an inherent trade-off between the image generation and understanding task, a carefully tuned training recipe enables them to improve each other. By selecting an appropriate loss balance weight, the unified model achieves results comparable to or exceeding those of single-task baselines on both tasks. Furthermore, we demonstrate that employing stronger pre-trained LLMs and random-order generation during training is important to achieve high-fidelity image generation within this unified framework. Built upon the Gemma model series, UniFluid exhibits competitive performance across both image generation and understanding, demonstrating strong transferability to various downstream tasks, including image editing for generation, as well as visual captioning and question answering for understanding.
Abstract（参考訳）: We present UniFluid, a unified autoregressive framework for joint visual generation and understanding using continuous visual tokens。我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。適切な損失バランスの重みを選択することで、統一モデルは両方のタスクにおいてシングルタスクのベースラインに匹敵する結果を得る。さらに、この統合されたフレームワーク内で高忠実度画像生成を実現するためには、より強力な事前学習LLMと、トレーニング中のランダムオーダー生成を利用することが重要であることを示す。 Gemmaモデルシリーズに基づいて構築されたUniFluidは、画像生成と理解の両方で競合する性能を示し、生成のための画像編集や、理解のための視覚的なキャプションと質問応答など、様々な下流タスクへの強い伝達性を示す。

関連論文リスト

X-Omni: Reinforcement Learning Makes Discrete Autoregressive Image Generative Models Great Again [45.74833463136701]
我々は,セマンティック・イメージ・トークンーザ,言語と画像の両方に対する統一自己回帰モデル,X-Omniと呼ばれる画像生成のためのオフライン拡散デコーダを開発する。 X-Omniは、7B言語モデルを用いて画像生成タスクにおける最先端のパフォーマンスを達成し、高い美的品質の画像を生成できると同時に、指示に従って長いテキストを描画する強力な能力を示す。
論文参考訳（メタデータ） (2025-07-29T17:59:04Z)
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning [68.98988753763666]
ユニバーサル画像生成フレームワークであるVisualClozeを提案する。 VisualClozeは、幅広いドメイン内タスク、見えないタスクへの一般化、複数のタスクの見えない統一、リバースジェネレーションをサポートする。グラフ構造化データセットであるGraph200Kを導入し,タスク密度と伝達可能な知識を向上する。
論文参考訳（メタデータ） (2025-04-10T17:59:42Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
UGen: Unified Autoregressive Multimodal Model with Progressive Vocabulary Learning [24.792798238358717]
UGenは統合された自己回帰型マルチモーダルモデルであり、テキスト処理、画像理解、画像生成タスクを同時に行う強力なパフォーマンスを示す。統一マルチモーダル学習に関連する課題に対処するために、UGenは、新しいメカニズム、すなわちプログレッシブ語彙学習を用いて訓練される。
論文参考訳（メタデータ） (2025-03-27T06:19:29Z)
QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。 QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。 QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文参考訳（メタデータ） (2025-02-07T18:59:57Z)
Masked Generative Story Transformer with Character Guidance and Caption Augmentation [2.1392064955842023]
ストーリービジュアライゼーションは、生成した画像シーケンス内の異なるフレーム間の視覚的品質と一貫性の両方を必要とする、難しい生成的視覚タスクである。以前のアプローチでは、イメージシーケンスの自動回帰生成を通してコンテキストを維持するために何らかのメモリメカニズムを使用していたり、文字とその背景の生成を別々にモデル化したりしていた。我々は,過去と将来のキャプションとのクロスアテンションに頼って整合性を実現する,完全に並列なトランスフォーマーベースのアプローチを提案する。
論文参考訳（メタデータ） (2024-03-13T13:10:20Z)
Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。画像生成のための*multi-modal instruction*を導入する。画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文参考訳（メタデータ） (2024-01-03T19:31:58Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文参考訳（メタデータ） (2022-11-22T20:39:18Z)
FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2021-11-09T17:15:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。