Fugu-MT 論文翻訳(概要): Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer

論文の概要: Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer

arxiv url: http://arxiv.org/abs/2307.02709v2
Date: Tue, 30 Jul 2024 08:26:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 22:59:28.175749
Title: Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer
Title（参考訳）: 不正確なグラウンド・トゥルース・ラベルによる評価のための論理的評価式の実用性検証:乳癌の腫瘍切除への応用
Authors: Yongquan Yang, Hong Bu,
Abstract要約: 論理的評価式 (LAF) は,不正確な接地トラスラベル (IAGTL) を用いた評価のための新しい理論である。本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
参考スコア（独自算出の注目度）: 1.0128808054306186
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The logical assessment formula (LAF) is a new theory proposed for evaluations with inaccurate ground-truth labels (IAGTLs) to assess the predictive models for artificial intelligence applications. However, the practicability of LAF for evaluations with IAGTLs has not yet been validated in real-world practice. In this paper, we applied LAF to two tasks of tumour segmentation for breast cancer (TSfBC) in medical histopathology whole slide image analysis (MHWSIA) for evaluations with IAGTLs. Experimental results and analysis show that the LAF-based evaluations with IAGTLs were unable to confidently act like usual evaluations with accurate ground-truth labels on the one easier task of TSfBC while being able to reasonably act like usual evaluations with AGTLs on the other more difficult task of TSfBC. These results and analysis reflect the potential of LAF applied to MHWSIA for evaluations with IAGTLs. This paper presents the first practical validation of LAF for evaluations with IAGTLs in a real-world application.
Abstract（参考訳）: 論理的評価公式 (LAF) は、人工知能応用の予測モデルを評価するために、不正確な基底真実ラベル (IAGTL) を用いた評価のために提案された新しい理論である。しかし, IAGTLを用いた評価におけるLAFの実践性は実世界ではまだ検証されていない。本報告では,乳腺癌に対する腫瘍分節法(TSfBC)の2つの課題にLAFを応用し,医用病理組織像解析(MHWSIA)を用いてIAGTLを用いた評価を行った。実験結果と解析結果から, IAGTLを用いたRAFによる評価は, TSfBCの1つの簡単なタスクにおいて, 正確な接地木ラベルによる通常の評価のように確実に行うことができず, TSfBCのもう1つの難しいタスクにおけるAGTLによる通常の評価のように合理的に行うことが可能であった。これらの結果は, IAGTL を用いた評価において, MHWSIA に適用された LAF の可能性を反映している。本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。

関連論文リスト

Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches [5.958100741754613]
インシデントアロマの微細な病変レベル検出のために,大規模言語モデル(LLM)を教師付きベースラインと比較した。そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1の0.79。
論文参考訳（メタデータ） (2025-12-05T08:49:57Z)
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark [12.208184074411896]
大規模言語モデル(LLM)は、一般的な実践においてかなりの可能性を示している。既存のベンチマークと評価フレームワークは、主に試験スタイルまたは単純化された質問応答形式に依存している。 GPとして機能するLLMの能力を評価するための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T01:02:44Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。 RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文参考訳（メタデータ） (2024-06-20T23:20:34Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。 GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文参考訳（メタデータ） (2024-01-24T16:52:37Z)
STREAMLINE: An Automated Machine Learning Pipeline for Biomedicine Applied to Examine the Utility of Photography-Based Phenotypes for OSA Prediction Across International Sleep Centers [2.872498492478085]
我々は、シンプルで透明でエンドツーエンドの機械学習パイプライン(STREAMLINE)を開発し、検証する。閉塞性睡眠時無呼吸(OSA)予測のための写真ベース表現型追加の有用性の検討にSTREAMLINEを適用した。ベンチマーク分析により,データシミュレーションにおけるSTREAMLINEの有効性が検証された。
論文参考訳（メタデータ） (2023-12-09T04:12:38Z)
Active Surrogate Estimators: An Active Learning Approach to Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。 ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文参考訳（メタデータ） (2022-02-14T17:15:18Z)
Logical Assessment Formula and Its Principles for Evaluations with Inaccurate Ground-Truth Labels [1.19658449368018]
不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。 LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
論文参考訳（メタデータ） (2021-10-22T03:18:01Z)
GeSERA: General-domain Summary Evaluation by Relevance Analysis [0.04199844472131921]
本稿では,SERAの改良版であるGeSERAについて述べる。 SerAはもともとバイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動法との相関性が良好であった。
論文参考訳（メタデータ） (2021-10-07T15:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。