論文の概要: iDETEX: Empowering MLLMs for Intelligent DETailed EXplainable IQA
- arxiv url: http://arxiv.org/abs/2510.17332v1
- Date: Mon, 20 Oct 2025 09:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.383008
- Title: iDETEX: Empowering MLLMs for Intelligent DETailed EXplainable IQA
- Title(参考訳): iDETEX:Intelligent Detailed Explainable IQAのためのMLLMの強化
- Authors: Zhaoran Zhao, Xinli Yue, Jianhui Sun, Yuhao Xie, Tao Shao, Liangchao Yao, Fan Xia, Yuetang Deng,
- Abstract要約: iDETEXはMLLM(Multimodal large language model)であり、品質基盤、知覚、記述の3つの重要なタスクを同時に実行することができる。
我々は,iDETEXが全サブタスクにわたる最先端性能を実現する大規模ViDA-UGCベンチマークに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 10.857047397246598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image Quality Assessment (IQA) has progressed from scalar quality prediction to more interpretable, human-aligned evaluation paradigms. In this work, we address the emerging challenge of detailed and explainable IQA by proposing iDETEX-a unified multimodal large language model (MLLM) capable of simultaneously performing three key tasks: quality grounding, perception, and description. To facilitate efficient and generalizable training across these heterogeneous subtasks, we design a suite of task-specific offline augmentation modules and a data mixing strategy. These are further complemented by online enhancement strategies to fully exploit multi-sourced supervision. We validate our approach on the large-scale ViDA-UGC benchmark, where iDETEX achieves state-of-the-art performance across all subtasks. Our model ranks first in the ICCV MIPI 2025 Detailed Image Quality Assessment Challenge, demonstrating its effectiveness and robustness in delivering accurate and interpretable quality assessments.
- Abstract(参考訳): 画像品質アセスメント(IQA)は、スカラー品質予測から、より解釈可能な、人間に沿った評価パラダイムへと進歩してきた。
本稿では,iDETEX(Multimodal large language model, MLLM)を,品質グラウンド, 知覚, 記述の3つの重要なタスクを同時に実行可能にすることで, 詳細かつ説明可能なIQAの課題に対処する。
これら不均一なサブタスク間の効率よく、一般化可能なトレーニングを容易にするために、タスク固有のオフライン拡張モジュール群とデータ混合戦略を設計する。
これらは、マルチソース監視を完全に活用するオンライン強化戦略によってさらに補完される。
我々は,iDETEXが全サブタスクにわたる最先端性能を実現する大規模ViDA-UGCベンチマークに対するアプローチを検証する。
ICCV MIPI 2025 Detailed Image Quality Assessment Challengeにランクインし、正確かつ解釈可能な品質評価を実現する上での有効性とロバスト性を実証した。
関連論文リスト
- Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs [60.0988889107102]
テキストオンリーQAペア(TQA)を高品質マルチモーダルQAペア(MMQA)に変換する可能性を探る。
我々は、TQA-to-MMQAフレームワークを開発し、変換の原則を提供する包括的で多次元のMMQA品質を確立する。
我々は,MMQA生成と評価を反復精製のためのクローズドループに統合することにより,我々のフレームワークを運用するエージェントシステム(Q-Mirror)を開発した。
論文 参考訳(メタデータ) (2025-09-29T05:22:10Z) - Evaluating Multimodal Large Language Models on Educational Textbook Question Answering [3.4729524020941063]
MLLM(Multimodal large language model)は、視覚言語タスクにおいて成功したが、複雑な教材を論じる能力はほとんど試験されていない。
本研究は、CK12-QAデータセットを用いた教科書質問応答(TQA)タスクにおいて、LLaVA-1.5やLLaMA 3.2-Visionを含む最先端MLLMの最初の評価を行う。
論文 参考訳(メタデータ) (2025-06-18T19:31:35Z) - Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment [10.701522670464463]
MLLM(Multimodal large language model)は、解釈可能な評価によって視覚的品質を評価する。
冷間開始段階と強化学習に基づく微調整段階からなる統合された2段階訓練枠組みを提案する。
これら2つの段階から派生したモデルをQ-Ponder-CIとQ-Ponderと呼ぶ。
論文 参考訳(メタデータ) (2025-06-03T10:11:51Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。