論文の概要: SIQA: Toward Reliable Scientific Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2603.06700v1
- Date: Thu, 05 Mar 2026 06:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.892236
- Title: SIQA: Toward Reliable Scientific Image Quality Assessment
- Title(参考訳): SIQA: 信頼性の高い画像品質評価を目指して
- Authors: Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 我々は,2つの相補的な次元に沿って,科学的画質をモデル化するフレームワークであるSIQA(Scientific Image Quality Assessment)を紹介する。
SIQA-U (Understanding), SIQA-S (Scoring), SIQA-U (Understanding), SIQA-U (Understanding), SIQA-U (Understanding), SIQA-U (Understanding), SIQA-U (Understanding) の2つの評価プロトコルを設計した。
代表的マルチモーダル大言語モデル(MLLM)に対する実験は、アライメントアライメントと科学的理解の間に一貫した相違が見られる。
- 参考スコア(独自算出の注目度): 72.41803245808924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific images fundamentally differ from natural and AI-generated images in that they encode structured domain knowledge rather than merely depict visual scenes. Assessing their quality therefore requires evaluating not only perceptual fidelity but also scientific correctness and logical completeness. However, existing image quality assessment (IQA) paradigms primarily focus on perceptual distortions or image-text alignment, implicitly assuming that depicted content is factually valid. This assumption breaks down in scientific contexts, where visually plausible figures may still contain conceptual errors or incomplete reasoning. To address this gap, we introduce Scientific Image Quality Assessment (SIQA), a framework that models scientific image quality along two complementary dimensions: Knowledge (Scientific Validity and Scientific Completeness) and Perception (Cognitive Clarity and Disciplinary Conformity). To operationalize this formulation, we design two evaluation protocols: SIQA-U (Understanding), which measures semantic comprehension of scientific content through multiple-choice tasks, and SIQA-S (Scoring), which evaluates alignment with expert quality judgments. We further construct the SIQA Challenge, consisting of an expert-annotated benchmark and a large-scale training set. Experiments across representative multimodal large language models (MLLMs) reveal a consistent discrepancy between scoring alignment and scientific understanding. While models can achieve strong agreement with expert ratings under SIQA-S, their performance on SIQA-U remains substantially lower. Fine-tuning improves both metrics, yet gains in scoring consistently outpace improvements in understanding. These results suggest that rating consistency alone may not reliably reflect scientific comprehension, underscoring the necessity of multidimensional evaluation for scientific image quality assessment.
- Abstract(参考訳): 科学画像は、視覚的なシーンを描写するだけでなく、構造化されたドメイン知識をエンコードするという点で、自然やAI生成の画像と根本的に異なる。
そのため、それらの品質を評価するには、知覚の忠実さだけでなく、科学的正確性や論理的完全性を評価する必要がある。
しかし、既存の画像品質評価(IQA)パラダイムは主に知覚の歪みや画像テキストのアライメントに焦点を当てており、描写されたコンテンツが事実上有効であると暗黙的に仮定している。
この仮定は科学的文脈において破られ、視覚的にもっともらしい数字は、概念上の誤りや不完全な推論を含むことがある。
このギャップに対処するために、科学画像品質評価(SIQA)という2つの相補的な次元、すなわち知識(科学的妥当性と科学的完全性)と知覚(認知的明瞭さと学際的整合性)に沿って科学的画像品質をモデル化するフレームワークを紹介した。
この定式化を運用するには、複数の選択タスクを通して科学的内容の意味的理解を測定するSIQA-U(Understanding)と、専門的品質判断と整合性を評価するSIQA-S(Scoring)の2つの評価プロトコルを設計する。
SIQAチャレンジをさらに構築し、エキスパートアノテートされたベンチマークと大規模なトレーニングセットで構成される。
代表的マルチモーダル大言語モデル(MLLM)に対する実験は、アライメントアライメントと科学的理解の間に一貫した相違が見られる。
モデルはSIQA-Sのエキスパート評価と強く一致しているが、SIQA-Uの性能は依然としてかなり低い。
微調整は両方のメトリクスを改善するが、スコアリングは理解の改善を継続的に上回る。
これらの結果から, 評価一貫性だけでは科学的理解を確実に反映しない可能性が示唆され, 画像品質評価における多次元評価の必要性が示唆された。
関連論文リスト
- SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence [60.202862987441684]
科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
論文 参考訳(メタデータ) (2026-01-08T09:45:58Z) - ChatGPT and Gemini participated in the Korean College Scholastic Ability Test -- Earth Science I [0.0]
本研究は,2025年韓国大学聴覚能力試験(CSAT)の地球科学I部門を用いて,最先端の大規模言語モデル(LLM)の多モーダルな科学的推論能力と認知的限界を分析する。
その結果,非構造入力はセグメンテーションや光学文字認識(OCR)の故障による性能低下を招いた。
AIの弱点を活用することで、教育者は真の学生能力とAIが生成する反応を区別し、評価公正性を確保することができる。
論文 参考訳(メタデータ) (2025-12-17T10:46:41Z) - Q-REAL: Towards Realism and Plausibility Evaluation for AI-Generated Content [71.46991494014382]
本稿では,AI生成画像におけるリアリズムと妥当性の詳細な評価のための新しいデータセットであるQ-Realを紹介する。
Q-Realは、人気のあるテキスト・ツー・イメージ・モデルによって生成される3,088のイメージで構成されている。
そこで本研究では,Q-Real Benchを2つの課題,すなわち判断と推論による根拠付けに基づいて評価する。
論文 参考訳(メタデータ) (2025-11-21T02:43:17Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - Image Intrinsic Scale Assessment: Bridging the Gap Between Quality and Resolution [4.896425819316727]
画像内在性尺度 (IIS) は,画像が最も知覚される品質を示す最大規模の尺度である。
人的判断に基づいてIISを主観的に測定・予測する画像固有スケールアセスメント(IISA)タスクを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:54:55Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Pairwise Comparisons Are All You Need [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では、従来のBIQAの制限を回避すべく設計されたペアワイズ比較フレームワークであるPICNIQを紹介する。
PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - Cuid: A new study of perceived image quality and its subjective
assessment [30.698984450985318]
本研究では,実験室環境下で主観的評価を収集する画像品質知覚法を提案する。
画像の異なるカテゴリと異なる種類と歪みのレベルの組み合わせによって、品質知覚がどのように影響を受けるかを検討する。
論文 参考訳(メタデータ) (2020-09-28T13:14:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。