論文の概要: UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2602.02437v3
- Date: Sat, 07 Feb 2026 16:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 14:34:06.109438
- Title: UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Editing
- Title(参考訳): UniReason 1.0: 世界的知識を考慮した画像生成と編集のための統一推論フレームワーク
- Authors: Dianyi Wang, Chaofan Ma, Feng Han, Size Wu, Wei Song, Yibin Wang, Zhixiong Zhang, Tianhang Wang, Siyuan Wang, Zhongyu Wei, Jiaqi Wang,
- Abstract要約: マルチモーダルモデルは、しばしば深い推論を必要とする複雑な合成タスクに苦しむ。
画像生成と画像編集を調和させる統一フレームワークUniReasonを提案する。
我々は,大規模推論中心のデータセットを体系的に構築することで,このフレームワークをサポートする。
- 参考スコア(独自算出の注目度): 44.071171929398076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models often struggle with complex synthesis tasks that demand deep reasoning, and typically treat text-to-image generation and image editing as isolated capabilities rather than interconnected reasoning steps. To address this, we propose UniReason, a unified framework that harmonizes these two tasks through two complementary reasoning paradigms. We incorporate world knowledge-enhanced textual reasoning into generation to infer implicit knowledge, and leverage editing capabilities for fine-grained editing-like visual refinement to further correct visual errors via self-reflection. This approach unifies generation and editing within a shared architecture, mirroring the human cognitive process of planning followed by refinement. We support this framework by systematically constructing a large-scale reasoning-centric dataset (~300k samples) covering five major knowledge domains (e.g., cultural commonsense, physics, etc.) for textual reasoning, alongside an agent-generated corpus for visual refinement. Extensive experiments demonstrate that UniReason achieves advanced performance on reasoning-intensive benchmarks such as WISE, KrisBench and UniREditBench, while maintaining superior general synthesis capabilities.
- Abstract(参考訳): 統一マルチモーダルモデルは、深い推論を必要とする複雑な合成タスクに苦しむことが多く、典型的には、相互接続された推論ステップではなく、テキスト-画像生成と画像編集を独立した機能として扱う。
そこで我々は,2つの相補的推論パラダイムを通じてこれらの2つのタスクを調和させる統一フレームワークUniReasonを提案する。
我々は、暗黙の知識を推論するために、世界的知識の強化されたテキスト推論を世代に組み込み、微粒な編集のような視覚的洗練のための編集機能を活用して、自己回帰による視覚的エラーをさらに補正する。
このアプローチは、共有アーキテクチャ内での生成と編集を統一し、計画の人間の認知過程を反映し、改善する。
このフレームワークは,5つの主要な知識領域(例えば,文化常識,物理など)をカバーする大規模推論中心のデータセット(約300kサンプル)を,エージェント生成による視覚的洗練のためのコーパスとともに,体系的に構築することで支援する。
拡張実験により、UniReasonはWISE、KrisBench、UniREditBenchなどの推論集約ベンチマークにおいて、優れた総合合成能力を保ちながら、高度な性能を達成することが示された。
関連論文リスト
- Forge-and-Quench: Enhancing Image Generation for Higher Fidelity in Unified Multimodal Models [23.529904770014735]
本稿では, 画像の忠実度と詳細性を高めるために理解を活用するという, 新たな視点を紹介する。
我々は、この原則を実践する新しい統一フレームワークForge-and-Quenchを提案する。
実験により、Forge-and-Quenchは複数のモデルで画像の忠実度とディテールを大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-01-08T08:18:44Z) - Unified Thinker: A General Reasoning Modular Core for Image Generation [57.665309753609144]
汎用画像生成のためのタスクに依存しない推論アーキテクチャであるUnified Thinkerを提案する。
Unified Thinkerはイメージジェネレータから専用のThinkerを分離し、生成モデル全体をトレーニングすることなく、推論のモジュラーアップグレードを可能にする。
テキスト・画像生成と画像編集の実験により、Unified Thinkerは画像の推論と生成品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2026-01-06T15:59:33Z) - ReViSE: Towards Reason-Informed Video Editing in Unified Models with Self-Reflective Learning [57.08352504712699]
ビデオ統合モデルは、理解と生成において強力な能力を示すが、理性に富んだビジュアル編集に苦慮している。
本稿では,Reason-Informed Video Editing (RVE)タスクを紹介する。
一つのアーキテクチャ内で生成と評価を統一するフレームワークであるReViSEを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:57:09Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - R-Genie: Reasoning-Guided Generative Image Editing [41.87126578621796]
複雑な多面的テキストクエリに基づいて画像を合成する推論誘導生成編集という,新たな画像編集パラダイムを導入する。
R-Genieは推論誘導型生成画像エディタであり、高度な推論機能を備えた拡散モデルの生成パワーを相乗化している。
論文 参考訳(メタデータ) (2025-05-23T11:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。