論文の概要: Semi-Supervised Multi-Task Learning for Interpretable Quality As- sessment of Fundus Images
- arxiv url: http://arxiv.org/abs/2511.13353v1
- Date: Mon, 17 Nov 2025 13:17:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.2278
- Title: Semi-Supervised Multi-Task Learning for Interpretable Quality As- sessment of Fundus Images
- Title(参考訳): ファウンダス画像の解釈可能な品質保証のための半教師付きマルチタスク学習
- Authors: Lucas Gabriel Telesco, Danila Nejamkin, Estefanía Mata, Francisco Filizzola, Kevin Wignall, Lucía Franco Troilo, María de los Angeles Cenoz, Melissa Thompson, Mercedes Leguía, Ignacio Larrabide, José Ignacio Orlando,
- Abstract要約: 網膜画像品質評価(RIQA)は、眼疾患のコンピュータ支援診断を支援する。
ほとんどのツールは、画像の全体的な品質のみを分類するが、再キャプチャーをガイドするための取得欠陥は示さない。
本稿では,マルチタスクフレームワーク内で,手動による品質ラベルと品質詳細の擬似ラベルを併用した半教師付きハイブリッド学習手法を提案する。
- 参考スコア(独自算出の注目度): 0.1265345507370037
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retinal image quality assessment (RIQA) supports computer-aided diagnosis of eye diseases. However, most tools classify only overall image quality, without indicating acquisition defects to guide recapture. This gap is mainly due to the high cost of detailed annotations. In this paper, we aim to mitigate this limitation by introducing a hybrid semi-supervised learning approach that combines manual labels for overall quality with pseudo-labels of quality details within a multi-task framework. Our objective is to obtain more interpretable RIQA models without requiring extensive manual labeling. Pseudo-labels are generated by a Teacher model trained on a small dataset and then used to fine-tune a pre-trained model in a multi-task setting. Using a ResNet-18 backbone, we show that these weak annotations improve quality assessment over single-task baselines (F1: 0.875 vs. 0.863 on EyeQ, and 0.778 vs. 0.763 on DeepDRiD), matching or surpassing existing methods. The multi-task model achieved performance statistically comparable to the Teacher for most detail prediction tasks (p > 0.05). In a newly annotated EyeQ subset released with this paper, our model performed similarly to experts, suggesting that pseudo-label noise aligns with expert variability. Our main finding is that the proposed semi-supervised approach not only improves overall quality assessment but also provides interpretable feedback on capture conditions (illumination, clarity, contrast). This enhances interpretability at no extra manual labeling cost and offers clinically actionable outputs to guide image recapture.
- Abstract(参考訳): 網膜画像品質評価(RIQA)は、眼疾患のコンピュータ支援診断を支援する。
しかし、ほとんどのツールは画像の全体的な品質だけを分類する。
このギャップは主に詳細なアノテーションのコストが高いためです。
本稿では,この制限を緩和するために,マルチタスクフレームワーク内で手動ラベルと品質の詳細の擬似ラベルを組み合わせた,半教師付きハイブリッド学習手法を提案する。
我々の目標は、広範囲な手動ラベリングを必要とせず、より解釈可能なRIQAモデルを得ることである。
擬似ラベルは、小さなデータセットでトレーニングされた教師モデルによって生成され、マルチタスク設定で事前訓練されたモデルを微調整するために使用される。
ResNet-18のバックボーンを用いて、これらの弱いアノテーションはシングルタスクベースライン(EyeQでは0.875 vs. 0.863、DeepDRiDでは0.778 vs. 0.763)に対する品質評価を改善し、既存のメソッドをマッチングまたは超えることを示した。
マルチタスクモデルは、最も詳細な予測タスク(p > 0.05)において、統計学的に教師に匹敵する性能を達成した。
本論文で新たに発表されたEyeQサブセットでは,本モデルが専門家と類似し,擬似ラベルノイズが専門家の変動と一致していることが示唆された。
我々の主な発見は、提案手法が全体的な品質評価を改善するだけでなく、捕獲条件(照度、明度、コントラスト)に対する解釈可能なフィードバックも提供することである。
これにより、余分な手動ラベリングコストを伴わずに解釈可能性を高め、画像再取り込みを誘導するための臨床的に実行可能な出力を提供する。
関連論文リスト
- VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [30.316630325648834]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を導入し、強化学習でランク付けする。
VisualQuality-R1 は差別的深層学習に基づく NR-IQA モデルより一貫して優れていることを示す。
VisualQuality-R1は、コンテキスト的にリッチでヒューマンアラインな品質記述を生成することができる。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Benchmarking Zero-Shot Robustness of Multimodal Foundation Models: A Pilot Study [61.65123150513683]
CLIPのようなマルチモーダル基盤モデルは、最先端のゼロショット結果を生成する。
これらのモデルは、ImageNetでトレーニングされた教師付きモデルのパフォーマンスを一致させることで、ロバスト性ギャップを埋めることが報告されている。
CLIPは、ベンチマーク上の教師付きImageNetモデルと比較して、かなりの堅牢性低下をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-15T17:33:49Z) - Learning Generalizable Perceptual Representations for Data-Efficient
No-Reference Image Quality Assessment [7.291687946822539]
最先端のNR-IQA技術の大きな欠点は、多数の人間のアノテーションに依存していることである。
低レベルな特徴の学習を、新しい品質に配慮したコントラスト損失を導入することで、歪みタイプの学習を可能にする。
両経路からゼロショット品質の予測を、完全に盲目な環境で設計する。
論文 参考訳(メタデータ) (2023-12-08T05:24:21Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Conformer and Blind Noisy Students for Improved Image Quality Assessment [80.57006406834466]
知覚品質評価(IQA)のための学習ベースアプローチは、通常、知覚品質を正確に測定するために歪んだ画像と参照画像の両方を必要とする。
本研究では,変換器を用いた全参照IQAモデルの性能について検討する。
また,全教師モデルから盲人学生モデルへの半教師付き知識蒸留に基づくIQAの手法を提案する。
論文 参考訳(メタデータ) (2022-04-27T10:21:08Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - No-Reference Image Quality Assessment via Feature Fusion and Multi-Task
Learning [29.19484863898778]
ブラインドまたはノン参照画像品質評価(NR-IQA)は基本的な問題であり、未解決であり、難しい問題である。
マルチタスク学習に基づく簡易かつ効果的な汎用的ノンリフレクション(NR)画像品質評価フレームワークを提案する。
このモデルでは、歪み型と主観的な人間のスコアを用いて画質を推定する。
論文 参考訳(メタデータ) (2020-06-06T05:04:10Z) - Multi-task Ensembles with Crowdsourced Features Improve Skin Lesion
Diagnosis [0.22940141855172028]
本稿では,より直感的に提供される画像の視覚的特徴について,聴衆に問うことを提案する。
提案手法をベースラインモデルとISIC 2017チャレンジデータセットの2000種類の皮膚病変と比較した。
個別のクラウドソース機能を持つマルチタスクモデルでは,モデルに限定的な効果が得られたが,アンサンブルに組み合わされた場合,一般化が向上することを示す。
論文 参考訳(メタデータ) (2020-04-28T13:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。