論文の概要: Towards Characterizing Scientific Image Utility and Upgradability
- arxiv url: http://arxiv.org/abs/2606.03401v1
- Date: Tue, 02 Jun 2026 09:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.736307
- Title: Towards Characterizing Scientific Image Utility and Upgradability
- Title(参考訳): 科学画像の実用性とアップグレード可能性の鑑定に向けて
- Authors: WenZhe Li, Qihang Yan, Liang Chen, Junying Wang, Farong Wen, Yijin Guo, Chunyi Li, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 本稿では,科学的画像評価のための枠組みを提案する。
我々は, 科学的画像の劣化を, 詳細歪み, 不完全性, 偽コンテンツ, エンティティ・コンフュージョンの4つの基本タイプに分類した。
フレームワークは、2段階評価プロトコルを実装しており、textitUtilityステージはエラー検出能力と修正命令生成を評価し、textitUpgradabilityステージは、既存の正確な情報を妥協することなく、修正が科学的妥当性を忠実に回復するかどうかを評価する。
- 参考スコア(独自算出の注目度): 71.77263034120624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific images function as critical evidence in research communication, yet their integrity faces unprecedented threats from AI-generated content that introduces subtle but consequential errors. Existing evaluation paradigms prove inadequate: perceptual quality metrics poorly correlate with scientific validity, while language models lack domain-specific verification capabilities. To address this gap, we propose the \textbf{S}cientific \textbf{I}mage \textbf{U}tility and \textbf{U}pgradability \textbf{A}ssessment (\textbf{SIU$^2$A}) framework, which introduces two complementary dimensions for scientific image evaluation. \textbf{Utility} encompasses \textit{error detection} (identifying scientific inaccuracies) and \textit{correction feasibility} (assessing whether errors can be reliably repaired). \textbf{Upgradability} measures the quality of correction. We categorize scientific image corruption into four fundamental types: Detail Distortion, Incompleteness, False Content, and Entity Confusion. Based on this taxonomy, we construct SIU$^2$A-Benchmark, a dataset with expert annotations for error identification and repair. The framework implements a two-stage evaluation protocol: the \textit{Utility} stage evaluates error detection capability and repair instruction generation, while the \textit{Upgradability} stage assesses whether corrections faithfully restore scientific validity without compromising existing accurate information. Experiments reveal that current multimodal systems exhibit significant limitations in both scientific error assessment and faithful correction, exposing a fundamental gap between visual perception and scientific usability.
- Abstract(参考訳): 科学画像は、研究コミュニケーションにおける重要な証拠として機能するが、その完全性は、微妙だが連続的な誤りをもたらすAI生成コンテンツによる前例のない脅威に直面している。
知覚品質指標は科学的妥当性と相関しがたいが、言語モデルはドメイン固有の検証能力に欠ける。
このギャップに対処するために, 科学的画像評価のための2つの相補的次元を導入する, \textbf{S}cientific \textbf{I}mage \textbf{U}tility と \textbf{U}pgradability \textbf{A}ssessment (\textbf{SIU$^2$A}) フレームワークを提案する。
textbf{Utility} は \textit{error detection} (科学的不正確性を識別する) と \textit{correction feasibility} (エラーを確実に修復できるかどうかを評価する)を含む。
\textbf{Upgradability} は修正の質を測定する。
我々は, 科学的画像の劣化を, 詳細歪み, 不完全性, 偽コンテンツ, エンティティ・コンフュージョンの4つの基本タイプに分類した。
この分類に基づいてSIU$^2$A-Benchmarkを構築する。
フレームワークは、2段階評価プロトコルを実装している: \textit{Utility}ステージはエラー検出能力と修復命令生成を評価し、 \textit{Upgradability}ステージは、既存の正確な情報を妥協することなく、補正が科学的妥当性を忠実に回復するかどうかを評価する。
実験により、現在のマルチモーダルシステムは、科学的誤り評価と忠実な修正の両方において重大な限界を示し、視覚的知覚と科学的ユーザビリティの根本的なギャップを露呈していることが明らかになった。
関連論文リスト
- PRISM: Prior Rectification and Uncertainty-Aware Structure Modeling for Diffusion-Based Text Image Super-Resolution [51.96078493242164]
PRISMは単一ステップ拡散ベースのText-SRフレームワークである。
PRISMはミリ秒レベルの推論で最先端の性能を達成する。
論文 参考訳(メタデータ) (2026-05-13T05:31:06Z) - SIQA: Toward Reliable Scientific Image Quality Assessment [72.41803245808924]
我々は,2つの相補的な次元に沿って,科学的画質をモデル化するフレームワークであるSIQA(Scientific Image Quality Assessment)を紹介する。
SIQA-U (Understanding), SIQA-S (Scoring), SIQA-U (Understanding), SIQA-U (Understanding), SIQA-U (Understanding), SIQA-U (Understanding), SIQA-U (Understanding) の2つの評価プロトコルを設計した。
代表的マルチモーダル大言語モデル(MLLM)に対する実験は、アライメントアライメントと科学的理解の間に一貫した相違が見られる。
論文 参考訳(メタデータ) (2026-03-05T06:57:26Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。
提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文 参考訳(メタデータ) (2023-05-13T18:55:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。