論文の概要: Semi-Supervised Multi-Task Learning for Interpretable Quality As- sessment of Fundus Images
- arxiv url: http://arxiv.org/abs/2511.13353v1
- Date: Mon, 17 Nov 2025 13:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.2278
- Title: Semi-Supervised Multi-Task Learning for Interpretable Quality As- sessment of Fundus Images
- Title(参考訳): ファウンダス画像の解釈可能な品質保証のための半教師付きマルチタスク学習
- Authors: Lucas Gabriel Telesco, Danila Nejamkin, Estefanía Mata, Francisco Filizzola, Kevin Wignall, Lucía Franco Troilo, María de los Angeles Cenoz, Melissa Thompson, Mercedes Leguía, Ignacio Larrabide, José Ignacio Orlando,
- Abstract要約: 網膜画像品質評価(RIQA)は、眼疾患のコンピュータ支援診断を支援する。
ほとんどのツールは、画像の全体的な品質のみを分類するが、再キャプチャーをガイドするための取得欠陥は示さない。
本稿では,マルチタスクフレームワーク内で,手動による品質ラベルと品質詳細の擬似ラベルを併用した半教師付きハイブリッド学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.1265345507370037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retinal image quality assessment (RIQA) supports computer-aided diagnosis of eye diseases. However, most tools classify only overall image quality, without indicating acquisition defects to guide recapture. This gap is mainly due to the high cost of detailed annotations. In this paper, we aim to mitigate this limitation by introducing a hybrid semi-supervised learning approach that combines manual labels for overall quality with pseudo-labels of quality details within a multi-task framework. Our objective is to obtain more interpretable RIQA models without requiring extensive manual labeling. Pseudo-labels are generated by a Teacher model trained on a small dataset and then used to fine-tune a pre-trained model in a multi-task setting. Using a ResNet-18 backbone, we show that these weak annotations improve quality assessment over single-task baselines (F1: 0.875 vs. 0.863 on EyeQ, and 0.778 vs. 0.763 on DeepDRiD), matching or surpassing existing methods. The multi-task model achieved performance statistically comparable to the Teacher for most detail prediction tasks (p > 0.05). In a newly annotated EyeQ subset released with this paper, our model performed similarly to experts, suggesting that pseudo-label noise aligns with expert variability. Our main finding is that the proposed semi-supervised approach not only improves overall quality assessment but also provides interpretable feedback on capture conditions (illumination, clarity, contrast). This enhances interpretability at no extra manual labeling cost and offers clinically actionable outputs to guide image recapture.
- Abstract(参考訳): 網膜画像品質評価(RIQA)は、眼疾患のコンピュータ支援診断を支援する。
しかし、ほとんどのツールは画像の全体的な品質だけを分類する。
このギャップは主に詳細なアノテーションのコストが高いためです。
本稿では,この制限を緩和するために,マルチタスクフレームワーク内で手動ラベルと品質の詳細の擬似ラベルを組み合わせた,半教師付きハイブリッド学習手法を提案する。
我々の目標は、広範囲な手動ラベリングを必要とせず、より解釈可能なRIQAモデルを得ることである。
擬似ラベルは、小さなデータセットでトレーニングされた教師モデルによって生成され、マルチタスク設定で事前訓練されたモデルを微調整するために使用される。
ResNet-18のバックボーンを用いて、これらの弱いアノテーションはシングルタスクベースライン(EyeQでは0.875 vs. 0.863、DeepDRiDでは0.778 vs. 0.763)に対する品質評価を改善し、既存のメソッドをマッチングまたは超えることを示した。
マルチタスクモデルは、最も詳細な予測タスク(p > 0.05)において、統計学的に教師に匹敵する性能を達成した。
本論文で新たに発表されたEyeQサブセットでは,本モデルが専門家と類似し,擬似ラベルノイズが専門家の変動と一致していることが示唆された。
我々の主な発見は、提案手法が全体的な品質評価を改善するだけでなく、捕獲条件(照度、明度、コントラスト)に対する解釈可能なフィードバックも提供することである。
これにより、余分な手動ラベリングコストを伴わずに解釈可能性を高め、画像再取り込みを誘導するための臨床的に実行可能な出力を提供する。
関連論文リスト
- VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [30.316630325648834]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を導入し、強化学習でランク付けする。
VisualQuality-R1 は差別的深層学習に基づく NR-IQA モデルより一貫して優れていることを示す。
VisualQuality-R1は、コンテキスト的にリッチでヒューマンアラインな品質記述を生成することができる。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - No-Reference Image Quality Assessment via Feature Fusion and Multi-Task
Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。
マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。
このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文 参考訳(メタデータ) (2020-06-06T05:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。