論文の概要: ReasonX: MLLM-Guided Intrinsic Image Decomposition
- arxiv url: http://arxiv.org/abs/2512.04222v1
- Date: Wed, 03 Dec 2025 19:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.850203
- Title: ReasonX: MLLM-Guided Intrinsic Image Decomposition
- Title(参考訳): ReasonX:MLLM-Guided Intrinsic Image Decomposition
- Authors: Alara Dirik, Tuanfeng Wang, Duygu Ceylan, Stefanos Zafeiriou, Anna Frühstück,
- Abstract要約: 内在的な画像分解は、イメージをアルベド、深さ、正規化、照明といった物理的な構成要素に分離することを目的としている。
本稿では,大規模言語モデル(MLLM)を,相対的な内在的比較を行う知覚的判断として活用する新しいフレームワークであるReasonXを提案する。
本枠組みは,審査員の評価とモデル出力から解析的に導出された関係を一致させることにより,条件付き固有予測器を整合させる。
- 参考スコア(独自算出の注目度): 41.961378846441015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intrinsic image decomposition aims to separate images into physical components such as albedo, depth, normals, and illumination. While recent diffusion- and transformer-based models benefit from paired supervision from synthetic datasets, their generalization to diverse, real-world scenarios remains challenging. We propose ReasonX, a novel framework that leverages a multimodal large language model (MLLM) as a perceptual judge providing relative intrinsic comparisons, and uses these comparisons as GRPO rewards for fine-tuning intrinsic decomposition models on unlabeled, in-the-wild images. Unlike RL methods for generative models, our framework aligns conditional intrinsic predictors by rewarding agreement between the judge's relational assessments and analytically derived relations from the model's outputs. ReasonX is model-agnostic and can be applied to different intrinsic predictors. Across multiple base architectures and modalities, ReasonX yields significant improvements, including 9-25% WHDR reduction on IIW albedo and up to 46% depth accuracy gains on ETH3D, highlighting the promise of MLLM-guided comparative supervision to bridge low- and high-level vision reasoning.
- Abstract(参考訳): 内在的な画像分解は、イメージをアルベド、深さ、正規化、照明といった物理的な構成要素に分離することを目的としている。
最近の拡散と変圧器に基づくモデルは、合成データセットからペア化された監視の恩恵を受けるが、それらの多様な実世界のシナリオへの一般化は依然として困難である。
本稿では,マルチモーダル大言語モデル(MLLM)を相対的な内在的比較を行う知覚的判断として活用する新しいフレームワークReasonXを提案する。
生成モデルに対するRL法とは違って,我々の枠組みは,判断者の関係性評価とモデル出力から解析的に導出された関係とを一致させることにより,条件付き固有予測器を整合させる。
ReasonXはモデルに依存しず、異なる固有の予測子に適用できる。
マルチベースアーキテクチャとモダリティ全体にわたって、ReasonXは、IIWアルベドの9-25%のWHDR削減、ETH3Dの46%の深度精度向上、低レベルと高レベルの視覚推論を橋渡しするためのMLLM誘導比較監督の約束を強調した。
関連論文リスト
- Latent Dirichlet Transformer VAE for Hyperspectral Unmixing with Bundled Endmembers [1.9336815376402718]
ハイパースペクトルアンミックスのための潜在ディリクレ変換器変分オートエンコーダ(LDVAE-T)を提案する。
我々のモデルは、トランスフォーマーアーキテクチャのグローバルコンテキストモデリング機能と、潜在空間に先立ってディリクレによって課される物理的に意味のある制約を組み合わせる。
我々は、Samson、Jasper Ridge、HYDICE Urbanの3つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2025-11-21T20:15:37Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Hybrid AI-Physical Modeling for Penetration Bias Correction in X-band InSAR DEMs: A Greenland Case Study [1.4711955189581167]
パラメトリック物理モデリングと機械学習を組み合わせた統合補正フレームワークを提案する。
TanDEM-Xデータを用いてグリーンランドの氷床実験を行った結果,提案したハイブリッドモデル補正はDEM誤差の平均偏差と標準偏差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2025-04-11T18:24:22Z) - Towards Fair and Robust Face Parsing for Generative AI: A Multi-Objective Approach [10.00430939898858]
顔解析における精度,公平性,堅牢性を最適化する多目的学習フレームワークを提案する。
以上の結果から,公平性に配慮したセグメンテーションにより,顔生成におけるフォトリアリズムと一貫性が向上することが示唆された。
以上の結果から,多目的顔解析が人口動態の整合性や頑健性を改善し,高品質なGAN合成を実現することが示唆された。
論文 参考訳(メタデータ) (2025-02-06T00:41:35Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [22.093944381988496]
MLLM(Multimodal large language model)は、様々なタスクにおいて顕著な成功を収めている。
しかし、視覚的エンコーダとテキスト的エンコーダの別個のトレーニングは、しばしばモダリティの誤った調整をもたらす。
これらの不正確さは、実世界の応用におけるMLLMの信頼性を著しく損なう。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - Contrast-augmented Diffusion Model with Fine-grained Sequence Alignment
for Markup-to-Image Generation [15.411325887412413]
本稿では,FSA-CDM (Contrast-augmented Diffusion Model with Fine-fine Sequence Alignment) という新しいモデルを提案する。
FSA-CDMは、マークアップ・ツー・イメージ生成の性能を高めるために、対照的な正/負のサンプルを拡散モデルに導入する。
異なるドメインの4つのベンチマークデータセットで実験が行われる。
論文 参考訳(メタデータ) (2023-08-02T13:43:03Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。