Fugu-MT 論文翻訳(概要): iDiff: Interpretable Difference-aware Framework for Pairwise Image Quality Assessment

論文の概要: iDiff: Interpretable Difference-aware Framework for Pairwise Image Quality Assessment

arxiv url: http://arxiv.org/abs/2605.19522v1
Date: Tue, 19 May 2026 08:24:00 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-20 15:03:09.202896
Title: iDiff: Interpretable Difference-aware Framework for Pairwise Image Quality Assessment
Title（参考訳）: iDiff: 画像品質評価のための解釈可能な差分認識フレームワーク
Authors: Xinli Yue, JianHui Sun, Tao Shao, Liangchao Yao, Fan Xia, Yuetang Deng,
Abstract要約: 画像品質評価のための解釈可能な差分認識フレームワークiDiffを提案する。 NTIRE 2026 RAIM チャレンジでは,本手法が第1位となる。
参考スコア（独自算出の注目度）: 10.381055159281823
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pairwise image quality assessment (IQA) in professional photography requires a model not only to identify the preferred image between two candidates, but also to provide convincing and image-grounded reasoning. In the NTIRE 2026 RAIM challenge, this requirement is further emphasized by jointly evaluating preference prediction and rationale generation. To address this task, we propose iDiff, an Interpretable Difference-aware framework for pairwise image quality assessment. Our method adopts a dual-branch design consisting of an Answer Model and a Thinking Model. The Answer Model performs robust preference prediction by explicitly decomposing each sample into left/right global and local views, followed by content-aware specialization for person and scene images and ensemble-based aggregation across backbones. The Thinking Model focuses on rationale generation and is progressively enhanced with expert-style templates, multi-source quality features, and answer-aware supervision conditioned on the Answer Model prediction. In this way, iDiff jointly models discriminative decision making and structured explanation, improving both robustness and interpretability. Extensive experiments demonstrate the effectiveness of the proposed framework on both accuracy and reasoning-quality metrics. Our method achieved first place in the NTIRE 2026 RAIM challenge, showing the effectiveness of integrating explicit difference modeling with structured multimodal reasoning for pairwise IQA.
Abstract（参考訳）: プロの撮影における画像品質評価(IQA)は、2つの候補間の好みの画像を識別するだけでなく、説得力のある画像的推論を提供するためにも必要である。 NTIRE 2026 RAIMチャレンジでは、優先予測と合理的生成を共同で評価することで、この要件をさらに強調する。この課題に対処するため,画像品質評価のための解釈可能な差分認識フレームワークiDiffを提案する。提案手法は,アンサーモデルと思考モデルからなる二重ブランチ設計を採用する。 Answer Modelは、各サンプルを左/右のグローバルビューとローカルビューに明示的に分解し、続いて人物とシーンイメージのコンテンツ認識専門化と、バックボーン間のアンサンブルベースのアグリゲーションによって、堅牢な選好予測を行う。 Thinking Modelは合理的な生成に重点を置いており、専門家スタイルのテンプレート、マルチソース品質の特徴、そしてAnswer Modelの予測に照らされた回答対応の監督によって徐々に強化されている。このように、iDiffは差別的な意思決定と構造化された説明を共同でモデル化し、堅牢性と解釈可能性の両方を改善している。大規模な実験は、提案フレームワークが精度と推論品質の両方の指標に与える影響を実証している。提案手法は NTIRE 2026 RAIM チャレンジにおいて第一位を達成し,一対のIQA に対する構造的マルチモーダル推論と明示的差分モデルの統合の有効性を示した。

関連論文リスト

DiffCap-Bench: A Comprehensive, Challenging, Robust Benchmark for Image Difference Captioning [26.88130913151649]
画像差分キャプション(IDC)は、2つの画像の違いを正確に識別する言語記述を生成する。 DiffCap-Benchは10の異なるカテゴリをカバーする総合的なIDCベンチマークである。また,人間の有意差分リストに基づくLCM-as-a-Judge評価プロトコルを提案する。
論文参考訳（メタデータ） (2026-05-06T05:12:41Z)
S2H-DPO: Hardness-Aware Preference Optimization for Vision-Language Models [8.92478226038086]
本稿では,3つの階層的推論レベルにまたがるマルチイメージの嗜好データを構築する学習フレームワークを提案する。提案手法は,マルチイメージ理解能力を同時に強化しつつ,強力な単一イメージ推論性能を維持している。
論文参考訳（メタデータ） (2026-04-20T17:06:20Z)
A Sanity Check on Composed Image Retrieval [91.95275287747499]
Composed Image Retrieval (CIR) は、参照画像からなるクエリと、所望の修正を指定する相対的なキャプションに基づいて、ターゲット画像を取得することを目的としている。 FISD(Fully-Informed Semantically-Diverse benchmark)は、参照ターゲット画像対の変数を正確に制御するために生成モデルを利用する。本稿では,対話型シナリオにおける既存モデルの可能性を探るためのマルチラウンドエージェント評価フレームワークを提案する。
論文参考訳（メタデータ） (2026-04-14T15:52:22Z)
UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文参考訳（メタデータ） (2025-11-03T07:24:57Z)
What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。 DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文参考訳（メタデータ） (2025-05-26T18:00:10Z)
Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。 Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文参考訳（メタデータ） (2025-03-12T09:39:33Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Recursive Counterfactual Deconfounding for Object Recognition [20.128093193861165]
本稿では,クローズドセットとオープンセットの両方のシナリオにおいて,オブジェクト認識のための再帰的因果分解モデルを提案する。提案したRCDモデルは,ほとんどの場合において,11の最先端ベースラインよりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2023-09-25T07:46:41Z)
Interpretable Neural Computation for Real-World Compositional Visual Question Answering [4.3668650778541895]
実世界の合成VQAのための解釈可能なフレームワークを構築した。このフレームワークでは,画像や質問をシーングラフやプログラムに切り離し,その上でシンボルプログラムが実行され,注意領域を選択するための完全な透過性がある。 GQAベンチマークで行った実験により,本フレームワークはモノリシックなモノリシックなモノリシックなモノリシックなモノリシックなプリエントアーツと競争の精度を達成できることが示された。
論文参考訳（メタデータ） (2020-10-10T05:46:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。