論文の概要: Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
- arxiv url: http://arxiv.org/abs/2602.12221v1
- Date: Thu, 12 Feb 2026 17:59:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.967978
- Title: Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
- Title(参考訳): 両世界のベスト:統一離散フローマッチングによるマルチモーダル推論と生成
- Authors: Onkar Susladkar, Tushar Prakash, Gayatri Deshmukh, Kiet A. Nguyen, Jiaxun Zhang, Adheesh Juvekar, Tianshu Bao, Lin Chai, Sparsh Mittal, Inderjit S Dhillon, Ismini Lourentzou,
- Abstract要約: UniDFlowは、マルチモーダル理解、生成、編集のための個別フローマッチングフレームワークである。
UniDFlpw SOTAは、インペイント、インコンテキスト画像生成、参照ベースの編集、合成生成などのタスクに強力なゼロショット一般化を実現する。
- 参考スコア(独自算出の注目度): 17.68651859356751
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.
- Abstract(参考訳): マルチモーダル理解,生成,編集のための個別フローマッチングフレームワークUniDFlowを提案する。
タスク固有の低ランクアダプタによる理解と生成を分離し、客観的な干渉や表現の絡み合いを回避し、新しい参照ベースのマルチモーダル選好アライメントは、同一条件下での相対的な結果を最適化し、大規模リトレーニングなしで忠実さと制御性を向上する。
UniDFlpwは8つのベンチマークでSOTAのパフォーマンスを達成し、明示的にタスク固有のトレーニングをしていないにも関わらず、インペイント、インコンテキスト画像生成、参照ベースの編集、合成生成などのタスクに強力なゼロショットの一般化を示す。
関連論文リスト
- OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Enhancing Semi-Supervised Multi-View Graph Convolutional Networks via Supervised Contrastive Learning and Self-Training [9.300953069946969]
グラフ畳み込みネットワーク(GCN)に基づく多視点学習は、異種視点から構造情報を統合するための強力なフレームワークを提供する。
既存のメソッドはビューをまたいだ補完的な情報を十分に活用することができず、最適化された特徴表現と限られたパフォーマンスに繋がる。
MV-SupGCNは,複数の相補的成分と明確なモチベーションと相互強化を統合した半教師付きGCNモデルである。
論文 参考訳(メタデータ) (2025-12-15T16:39:23Z) - UniLayDiff: A Unified Diffusion Transformer for Content-Aware Layout Generation [54.38636515750502]
コンテンツ対応レイアウト生成タスクのための統一拡散変換器UniLayDiffを提案する。
我々は、背景画像、レイアウト要素、および多様な制約の間の複雑な相互作用を捉えるために、マルチモード拡散トランスフォーマフレームワークを使用します。
実験により、UniLayDiffは条件のないタスクから様々な条件生成タスクにまたがって最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-09T18:38:44Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Distributional Vision-Language Alignment by Cauchy-Schwarz Divergence [83.15764564701706]
本稿では、コーシーシュワルツの発散を相互情報と統合して視覚言語アライメントを行う新しいフレームワークを提案する。
CS分散はInfoNCEのアライメント・ユニフォーム性競合にシームレスに対処し,InfoNCEと補完的な役割を担っていることがわかった。
テキスト・画像生成およびモダリティ横断検索タスクの実験により,本手法が視覚言語アライメントに与える影響を実証した。
論文 参考訳(メタデータ) (2025-02-24T10:29:15Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。