論文の概要: Validation of the Practicability of Logical Assessment Formula for
Evaluations with Inaccurate Ground-Truth Labels
- arxiv url: http://arxiv.org/abs/2307.02709v1
- Date: Thu, 6 Jul 2023 01:17:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 15:32:05.611841
- Title: Validation of the Practicability of Logical Assessment Formula for
Evaluations with Inaccurate Ground-Truth Labels
- Title(参考訳): 不正確な地下構造評価のための論理的評価式の実用性検証
- Authors: Yongquan Yang and Hong Bu
- Abstract要約: 論理的アセスメント公式(LAF)は不正確な地下構造ラベル(IAGTL)を用いた評価のための新しい理論である
本報告では, 乳腺癌に対する腫瘍郭清法 (TSfBC) にLAFを応用し, 臨床病理組織学的スライス画像解析 (MHWSIA) を行った。
実験結果と解析結果から,TSfBC症例における IAGTL 評価における LAF の有効性と,MHWSIA に対する LAF の有用性が示唆された。
- 参考スコア(独自算出の注目度): 2.8681767712152193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical assessment formula (LAF) is a new theory proposed for evaluations
with inaccurate ground-truth labels (IAGTLs) to assess the predictive models
for various artificial intelligence applications. However, the practicability
of LAF for evaluations with IAGTLs has not yet been validated in real-world
practice. In this paper, to address this issue, we applied LAF to tumour
segmentation for breast cancer (TSfBC) in medical histopathology whole slide
image analysis (MHWSIA). Experimental results and analysis show the validity of
LAF for evaluations with IAGTLs in the case of TSfBC and reflect the potentials
of LAF applied to MHWSIA.
- Abstract(参考訳): 論理的アセスメント公式 (LAF) は、様々な人工知能応用の予測モデルを評価するために、不正確な地上真実ラベル (IAGTL) を用いた評価のために提案された新しい理論である。
しかし, IAGTLを用いた評価において, LAFの実践性はまだ実証されていない。
本稿では,この課題に対処するため,臨床病理組織学的スライス画像解析(MHWSIA)における乳癌の腫瘍分節(TSfBC)にLAFを適用した。
実験結果と解析結果から,TSfBC症例における IAGTL 評価における LAF の有効性と,MHWSIA に対する LAF の有用性が示唆された。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。
我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。
RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文 参考訳(メタデータ) (2024-06-20T23:20:34Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - STREAMLINE: An Automated Machine Learning Pipeline for Biomedicine
Applied to Examine the Utility of Photography-Based Phenotypes for OSA
Prediction Across International Sleep Centers [2.872498492478085]
我々は、シンプルで透明でエンドツーエンドの機械学習パイプライン(STREAMLINE)を開発し、検証する。
閉塞性睡眠時無呼吸(OSA)予測のための写真ベース表現型追加の有用性の検討にSTREAMLINEを適用した。
ベンチマーク分析により,データシミュレーションにおけるSTREAMLINEの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-09T04:12:38Z) - Active Surrogate Estimators: An Active Learning Approach to
Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。
ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文 参考訳(メタデータ) (2022-02-14T17:15:18Z) - Logical Assessment Formula and Its Principles for Evaluations with
Inaccurate Ground-Truth Labels [1.19658449368018]
不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。
LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
論文 参考訳(メタデータ) (2021-10-22T03:18:01Z) - GeSERA: General-domain Summary Evaluation by Relevance Analysis [0.04199844472131921]
本稿では,SERAの改良版であるGeSERAについて述べる。
SerAはもともとバイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動法との相関性が良好であった。
論文 参考訳(メタデータ) (2021-10-07T15:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。