論文の概要: Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer
- arxiv url: http://arxiv.org/abs/2307.02709v3
- Date: Tue, 08 Oct 2024 14:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:28:08.238063
- Title: Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer
- Title(参考訳): 不正確なグラウンド・トゥルース・ラベルによる評価のための論理的評価式の実用性検証:乳癌の腫瘍切除への応用
- Authors: Yongquan Yang, Hong Bu,
- Abstract要約: 論理的評価式 (LAF) は,不正確な接地トラスラベル (IAGTL) を用いた評価のための新しい理論である。
本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
- 参考スコア(独自算出の注目度): 1.0128808054306186
- License:
- Abstract: The logical assessment formula (LAF) is a new theory proposed for evaluations with inaccurate ground-truth labels (IAGTLs) to assess the predictive models for artificial intelligence applications. However, the practicability of LAF for evaluations with IAGTLs has not yet been validated in real-world practice. In this paper, we applied LAF to two tasks of tumour segmentation for breast cancer (TSfBC) in medical histopathology whole slide image analysis (MHWSIA) for evaluations with IAGTLs. Experimental results and analysis show that the LAF-based evaluations with IAGTLs were unable to confidently act like usual evaluations with accurate ground-truth labels on the one easier task of TSfBC while being able to reasonably act like usual evaluations with AGTLs on the other more difficult task of TSfBC. These results and analysis reflect the potential of LAF applied to MHWSIA for evaluations with IAGTLs. This paper presents the first practical validation of LAF for evaluations with IAGTLs in a real-world application.
- Abstract(参考訳): 論理的評価公式 (LAF) は、人工知能応用の予測モデルを評価するために、不正確な基底真実ラベル (IAGTL) を用いた評価のために提案された新しい理論である。
しかし, IAGTLを用いた評価におけるLAFの実践性は実世界ではまだ検証されていない。
本報告では,乳腺癌に対する腫瘍分節法(TSfBC)の2つの課題にLAFを応用し,医用病理組織像解析(MHWSIA)を用いてIAGTLを用いた評価を行った。
実験結果と解析結果から, IAGTLを用いたRAFによる評価は, TSfBCの1つの簡単なタスクにおいて, 正確な接地木ラベルによる通常の評価のように確実に行うことができず, TSfBCのもう1つの難しいタスクにおけるAGTLによる通常の評価のように合理的に行うことが可能であった。
これらの結果は, IAGTL を用いた評価において, MHWSIA に適用された LAF の可能性を反映している。
本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
関連論文リスト
- RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。
我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。
RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文 参考訳(メタデータ) (2024-06-20T23:20:34Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - STREAMLINE: An Automated Machine Learning Pipeline for Biomedicine
Applied to Examine the Utility of Photography-Based Phenotypes for OSA
Prediction Across International Sleep Centers [2.872498492478085]
我々は、シンプルで透明でエンドツーエンドの機械学習パイプライン(STREAMLINE)を開発し、検証する。
閉塞性睡眠時無呼吸(OSA)予測のための写真ベース表現型追加の有用性の検討にSTREAMLINEを適用した。
ベンチマーク分析により,データシミュレーションにおけるSTREAMLINEの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-09T04:12:38Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - Active Surrogate Estimators: An Active Learning Approach to
Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。
ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文 参考訳(メタデータ) (2022-02-14T17:15:18Z) - Logical Assessment Formula and Its Principles for Evaluations with
Inaccurate Ground-Truth Labels [1.19658449368018]
不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。
LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
論文 参考訳(メタデータ) (2021-10-22T03:18:01Z) - GeSERA: General-domain Summary Evaluation by Relevance Analysis [0.04199844472131921]
本稿では,SERAの改良版であるGeSERAについて述べる。
SerAはもともとバイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動法との相関性が良好であった。
論文 参考訳(メタデータ) (2021-10-07T15:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。