論文の概要: UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation
- arxiv url: http://arxiv.org/abs/2511.16917v1
- Date: Fri, 21 Nov 2025 03:02:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.869476
- Title: UniModel: A Visual-Only Framework for Unified Multimodal Understanding and Generation
- Title(参考訳): UniModel: 統一マルチモーダル理解と生成のためのビジュアルオンリーフレームワーク
- Authors: Chi Zhang, Jiepeng Wang, Youming Wang, Yuanzhi Liang, Xiaoyan Yang, Zuoxin Li, Haibin Huang, Xuelong Li,
- Abstract要約: 本稿では,単一のピクセル間拡散フレームワーク内での視覚的理解と視覚的生成を支援する統合生成モデルを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
画像間合成と画像間理解の実験は、強いモーダルアライメントを示す。
- 参考スコア(独自算出の注目度): 51.31795451147935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present UniModel, a unified generative model that jointly supports visual understanding and visual generation within a single pixel-to-pixel diffusion framework. Our goal is to achieve unification along three axes: the model, the tasks, and the representations. At the representation level, we eliminate modality discrepancies by mapping both text and images into a shared visual space: textual prompts are rendered as painted text images on a clean canvas, and all inputs and outputs are treated purely as RGB pixels. This yields a fully vision-native formulation of multimodal learning. At the task level, a broad range of vision-language problems are cast as pixel-to-pixel transformations in this visual space. For understanding tasks, the model takes an RGB image and produces a painted text image that visually encodes the semantic prediction. For generation tasks, painted text images serve as visual conditions that guide realistic and semantically aligned image synthesis. Captioning and text-to-image generation thus become different directions of the same underlying visual translation process. At the model level, we instantiate a single Unified Diffusion Transformer trained with rectified flow in pixel space. A shared backbone jointly learns bidirectional mappings between natural images and painted text images, with lightweight task embeddings to specify the desired direction. Experiments on text-to-image synthesis and image-to-text understanding demonstrate strong cross-modal alignment and emergent controllability such as cycle-consistent image-caption-image loops. Our initial exploration suggests that unifying model, tasks, and representations in a single visual space is a promising paradigm for general-purpose multimodal intelligence.
- Abstract(参考訳): 単一のピクセル間拡散フレームワーク内での視覚的理解と視覚生成を協調的に支援する統合生成モデルUniModelを提案する。
私たちのゴールは、モデル、タスク、表現の3つの軸に沿った統一を達成することです。
表現レベルでは、テキストと画像の両方を共有視覚空間にマッピングすることで、モダリティの相違を解消する。テキストプロンプトはクリーンキャンバス上に描かれたテキスト画像として描画され、すべての入力と出力はRGBピクセルとして純粋に扱われる。
これは、マルチモーダル学習の完全な視覚ネイティブな定式化をもたらす。
タスクレベルでは、この視覚空間における画素間変換として、幅広い視覚言語問題が存在する。
タスクを理解するために、モデルはRGBイメージを取得し、セマンティックな予測を視覚的にエンコードする塗装されたテキストイメージを生成する。
生成タスクでは、塗装されたテキストイメージは、現実的で意味的に整合した画像合成を導く視覚条件として機能する。
これにより、キャプションとテキスト・ツー・イメージの生成は、同じ視覚翻訳プロセスの異なる方向へと変化する。
モデルレベルでは、1つの統一拡散変換器を画素空間の整流で訓練してインスタンス化する。
共有バックボーンは、所望の方向を特定するための軽量なタスク埋め込みを用いて、自然な画像と塗装されたテキスト画像の双方向マッピングを共同で学習する。
テキスト・ツー・イメージ合成と画像・画像・テキスト理解の実験は、サイクル一貫性のイメージ・キャプション・イメージ・ループのような強力なクロスモーダルアライメントと創発的制御性を示す。
最初の調査では、単一の視覚空間におけるモデル、タスク、表現の統合が、汎用マルチモーダルインテリジェンスにとって有望なパラダイムであることを示唆した。
関連論文リスト
- PixelWorld: How Far Are We from Perceiving Everything as Pixels? [62.068243387551085]
最近のエージェント言語モデルは、密に絡み合った視覚情報やテキスト情報を含む現実世界の環境と相互作用する必要がある。
我々は、自然言語、表、数学的、図形的な入力を共有ピクセル空間にレンダリングするベンチマークであるPerceive Everything as Pixels (PEAP)を紹介する。
実験の結果,PEAPは意味理解タスクにおけるトークンベースのアプローチと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-01-31T17:39:21Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - L-Verse: Bidirectional Generation Between Image and Text [41.133824156046394]
L-Verseは、AugVAE(Feature-augmented Variational Autoencoder)とBiART(Bidirectional Auto-Regressive Transformer)で構成される新しいアーキテクチャである。
AugVAEは、ImageNet1Kバリデーションセットにおける最先端の再構築性能と、野生の未確認画像に対するロバスト性を示している。
L-Verseは、微調整や余分なオブジェクト検出フレームワークを使わずに、画像からテキスト、テキストから画像を生成するタスクに直接使用することができる。
論文 参考訳(メタデータ) (2021-11-22T11:48:26Z) - UFO: A UniFied TransfOrmer for Vision-Language Representation Learning [54.82482779792115]
視覚言語(VL)表現学習において、単文入力(画像や言語など)または多モーダル入力(画像と質問の連結など)を処理できる単一のUniFied TransfOrmer(UFO)を提案する。
既存のアプローチは、通常、各モダリティのための個別のネットワークを設計し、マルチモーダルタスクのための特定の融合ネットワークを設計する。
論文 参考訳(メタデータ) (2021-11-19T03:23:10Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。