Fugu-MT 論文翻訳(概要): Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels

論文の概要: Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels

arxiv url: http://arxiv.org/abs/2307.02709v1
Date: Thu, 6 Jul 2023 01:17:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 15:32:05.611841
Title: Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels
Title（参考訳）: 不正確な地下構造評価のための論理的評価式の実用性検証
Authors: Yongquan Yang and Hong Bu
Abstract要約: 論理的アセスメント公式(LAF)は不正確な地下構造ラベル(IAGTL)を用いた評価のための新しい理論である本報告では, 乳腺癌に対する腫瘍郭清法 (TSfBC) にLAFを応用し, 臨床病理組織学的スライス画像解析 (MHWSIA) を行った。実験結果と解析結果から,TSfBC症例における IAGTL 評価における LAF の有効性と,MHWSIA に対する LAF の有用性が示唆された。
参考スコア（独自算出の注目度）: 2.8681767712152193
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logical assessment formula (LAF) is a new theory proposed for evaluations with inaccurate ground-truth labels (IAGTLs) to assess the predictive models for various artificial intelligence applications. However, the practicability of LAF for evaluations with IAGTLs has not yet been validated in real-world practice. In this paper, to address this issue, we applied LAF to tumour segmentation for breast cancer (TSfBC) in medical histopathology whole slide image analysis (MHWSIA). Experimental results and analysis show the validity of LAF for evaluations with IAGTLs in the case of TSfBC and reflect the potentials of LAF applied to MHWSIA.
Abstract（参考訳）: 論理的アセスメント公式 (LAF) は、様々な人工知能応用の予測モデルを評価するために、不正確な地上真実ラベル (IAGTL) を用いた評価のために提案された新しい理論である。しかし, IAGTLを用いた評価において, LAFの実践性はまだ実証されていない。本稿では,この課題に対処するため,臨床病理組織学的スライス画像解析(MHWSIA)における乳癌の腫瘍分節(TSfBC)にLAFを適用した。実験結果と解析結果から,TSfBC症例における IAGTL 評価における LAF の有効性と,MHWSIA に対する LAF の有用性が示唆された。

関連論文リスト

Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches [5.958100741754613]
インシデントアロマの微細な病変レベル検出のために,大規模言語モデル(LLM)を教師付きベースラインと比較した。そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1の0.79。
論文参考訳（メタデータ） (2025-12-05T08:49:57Z)
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark [12.208184074411896]
大規模言語モデル(LLM)は、一般的な実践においてかなりの可能性を示している。既存のベンチマークと評価フレームワークは、主に試験スタイルまたは単純化された質問応答形式に依存している。 GPとして機能するLLMの能力を評価するための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T01:02:44Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。既存のファクトチェック評価手法は静的データセットと分類基準に依存している。本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文参考訳（メタデータ） (2025-02-25T07:44:22Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
Evaluating RAG-Fusion with RAGElo: an Automated Elo-based Framework [0.5897092980823265]
本稿では,RAG (Retrieval-Augmented Generation) Question-Answeringシステムを評価するための総合的なフレームワークを提案する。我々はLarge Language Models (LLMs) を用いて、実際のユーザクエリとドメイン内ドキュメントに基づいて、合成クエリの大規模なデータセットを生成する。 RAGEloはヒトのアノテータの好みと正に一致しているが,注意が必要である。
論文参考訳（メタデータ） (2024-06-20T23:20:34Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Evaluation of General Large Language Models in Contextually Assessing Semantic Concepts Extracted from Adult Critical Care Electronic Health Record Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。 GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文参考訳（メタデータ） (2024-01-24T16:52:37Z)
STREAMLINE: An Automated Machine Learning Pipeline for Biomedicine Applied to Examine the Utility of Photography-Based Phenotypes for OSA Prediction Across International Sleep Centers [2.872498492478085]
我々は、シンプルで透明でエンドツーエンドの機械学習パイプライン(STREAMLINE)を開発し、検証する。閉塞性睡眠時無呼吸(OSA)予測のための写真ベース表現型追加の有用性の検討にSTREAMLINEを適用した。ベンチマーク分析により,データシミュレーションにおけるSTREAMLINEの有効性が検証された。
論文参考訳（メタデータ） (2023-12-09T04:12:38Z)
Active Surrogate Estimators: An Active Learning Approach to Label-Efficient Model Evaluation [59.7305309038676]
モデル評価のためのアクティブサロゲート推定器(ASE)を提案する。 ASEは現在の最先端技術よりもラベル効率が高いことが分かりました。
論文参考訳（メタデータ） (2022-02-14T17:15:18Z)
Logical Assessment Formula and Its Principles for Evaluations with Inaccurate Ground-Truth Labels [1.19658449368018]
不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。 LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
論文参考訳（メタデータ） (2021-10-22T03:18:01Z)
GeSERA: General-domain Summary Evaluation by Relevance Analysis [0.04199844472131921]
本稿では,SERAの改良版であるGeSERAについて述べる。 SerAはもともとバイオメディカルドメインのみを対象として設計され、広く使われている語彙ベースのROUGE法よりも手動法との相関性が良好であった。
論文参考訳（メタデータ） (2021-10-07T15:41:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。