論文の概要: CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2604.04780v1
- Date: Mon, 06 Apr 2026 15:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.258023
- Title: CLEAR: Unlocking Generative Potential for Degraded Image Understanding in Unified Multimodal Models
- Title(参考訳): CLEAR:Unified Multimodal Modelにおける劣化画像理解のための生成可能性のロック解除
- Authors: Xiangzhao Hao, Zefeng Zhang, Zhenyu Zhang, Linhao Yu, Yao Chen, Yiqian Zhang, Haiyun Guo, Shuohuan Wang, Yu Sun,
- Abstract要約: 理解と生成を組み合わせたマルチモーダルモデルは、劣化した入力に自身の生成能力を利用することができない。
本稿では,2つの機能を3段階のプログレッシブステップで接続するフレームワークであるCLEARを紹介する。
実験により、CLEARはクリーンイメージ性能を維持しながら、劣化した入力に対するロバスト性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 23.357627415320025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image degradation from blur, noise, compression, and poor illumination severely undermines multimodal understanding in real-world settings. Unified multimodal models that combine understanding and generation within a single architecture are a natural fit for this challenge, as their generative pathway can model the fine-grained visual structure that degradation destroys. Yet these models fail to leverage their own generative capacity on degraded inputs. We trace this disconnect to two compounding factors: existing training regimes never ask the model to invoke generation during reasoning, and the standard decode-reencode pathway does not support effective joint optimization. We present CLEAR, a framework that connects the two capabilities through three progressive steps: (1) supervised fine-tuning on a degradation-aware dataset to establish the generate-then-answer reasoning pattern; (2) a Latent Representation Bridge that replaces the decode-reencode detour with a direct, optimizable connection between generation and reasoning; (3) Interleaved GRPO, a reinforcement learning method that jointly optimizes text reasoning and visual generation under answer-correctness rewards. We construct MMD-Bench, covering three degradation severity levels across six standard multimodal benchmarks. Experiments show that CLEAR substantially improves robustness on degraded inputs while preserving clean-image performance. Our analysis further reveals that removing pixel-level reconstruction supervision leads to intermediate visual states with higher perceptual quality, suggesting that task-driven optimization and visual quality are naturally aligned.
- Abstract(参考訳): ぼかし、ノイズ、圧縮、照明の悪さによる画像の劣化は、現実世界の設定におけるマルチモーダル理解を著しく損なう。
単一のアーキテクチャにおける理解と生成を組み合わせた統一されたマルチモーダルモデルは、その生成経路が破壊するきめ細かい視覚構造をモデル化できるため、この課題に自然に適合する。
しかし、これらのモデルは、劣化した入力に自身の生成能力を利用することができない。
既存のトレーニング制度では、推論中にモデルに生成を要求せず、標準デコード/リコード経路は効果的な共同最適化をサポートしない。
本稿では,(1)デコード・エンコード・デタウトを生成・推論の直接的・最適化可能な接続に置き換える遅延表現ブリッジ,(3)回答正当性報酬の下でテキスト推論と視覚生成を協調的に最適化する強化学習手法であるインターリーブドGRPOを提案する。
我々はMDD-Benchを構築し、6つの標準マルチモーダルベンチマークで3つの劣化重大度レベルをカバーした。
実験により、CLEARはクリーンイメージ性能を維持しながら、劣化した入力に対するロバスト性を大幅に向上することが示された。
さらに, 画素レベルの再構築管理の除去は, 知覚的品質の高い中間的視覚状態につながり, タスク駆動型最適化と視覚的品質が自然に整合していることが示唆された。
関連論文リスト
- UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation [51.41441081823758]
インターリーブドジェネレーションが可能な統一モデルが有望なパラダイムとして登場している。
インターリーブ・ジェネレーションに適した統合強化学習フレームワークを提案する。
実験により,この統合学習レシピは推論による画像生成品質を著しく向上させることが示された。
論文 参考訳(メタデータ) (2026-03-24T17:59:17Z) - LP-LLM: End-to-End Real-World Degraded License Plate Text Recognition via Large Multimodal Models [4.497411606350301]
LPR(Real-world License Plate Recognition)は、モーションボケ、低解像度、複雑な照明などの深刻な劣化によって大きな課題に直面している。
画像復元モデルの画素レベルの最適化目標は、文字認識のセマンティックな目標と不一致である。
本稿では,Qwen3-VLに基づくエンドツーエンド構造対応マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-14T03:32:55Z) - BLIP3o-NEXT: Next Frontier of Native Image Generation [113.25832679864631]
本稿では,ネイティブ画像生成の次のフロンティアであるBLIP3シリーズにおいて,完全にオープンな基盤モデルBLIP3oを提案する。
BLIP3oは単一のアーキテクチャで画像生成と画像編集を統一し、強力な画像生成と画像編集機能を示す。
論文 参考訳(メタデータ) (2025-10-17T17:50:58Z) - RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - DSwinIR: Rethinking Window-based Attention for Image Restoration [109.38288333994407]
画像復元のための基盤となるバックボーンアーキテクチャとしてデフォルマブルスライディングウィンドウ変換器(DSwinIR)を提案する。
DSwinIRの中心には、Deformable Sliding Window (DSwin) Attentionという小説がある。
大規模な実験により、DSwinIRは幅広い画像復元タスクに新しい最先端の技術を設定できることがわかった。
論文 参考訳(メタデータ) (2025-04-07T09:24:41Z) - Evolving High-Quality Rendering and Reconstruction in a Unified Framework with Contribution-Adaptive Regularization [27.509109317973817]
3D Gaussian Splatting (3DGS)は、高品質なレンダリングと高速な推論速度で注目されている。
従来の手法は主に幾何学的正則化に焦点を当てており、プリミティブベースのフレームワークやデュアルモデルフレームワークを含む一般的なアプローチがある。
本稿では,高画質表面再構成を実現するために,適応正規化を利用した統一モデルであるCarGSを提案する。
論文 参考訳(メタデータ) (2025-03-02T12:51:38Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。