論文の概要: Logical Assessment Formula and Its Principles for Evaluations with
Inaccurate Ground-Truth Labels
- arxiv url: http://arxiv.org/abs/2110.11567v4
- Date: Sun, 7 Jan 2024 05:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:57:58.722491
- Title: Logical Assessment Formula and Its Principles for Evaluations with
Inaccurate Ground-Truth Labels
- Title(参考訳): 不正確な接地ラベルを用いた評価のための論理評価式とその原理
- Authors: Yongquan Yang
- Abstract要約: 不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。
LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
- 参考スコア(独自算出の注目度): 1.19658449368018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluations with accurate ground-truth labels (AGTLs) have been widely
employed to assess predictive models for artificial intelligence applications.
However, in some specific fields, such as medical histopathology whole slide
image analysis, it is quite usual the situation that AGTLs are difficult to be
precisely defined or even do not exist. To alleviate this situation, we propose
logical assessment formula (LAF) and reveal its principles for evaluations with
inaccurate ground-truth labels (IAGTLs) via logical reasoning under
uncertainty. From the revealed principles of LAF, we summarize the
practicability of LAF: 1) LAF can be applied for evaluations with IAGTLs on a
more difficult task, able to act like usual strategies for evaluations with
AGTLs reasonably; 2) LAF can be applied for evaluations with IAGTLs from the
logical perspective on an easier task, unable to act like usual strategies for
evaluations with AGTLs confidently.
- Abstract(参考訳): 精度の高い基底構造ラベル(AGTL)を用いた評価は、人工知能応用の予測モデルを評価するために広く用いられている。
しかし, 病理組織学, スライド画像解析などの特定の分野では, agtlsの正確な定義が困難であったり, 存在すらしなかったりする状況が一般的である。
この状況を緩和するために,論理評価式 (laf) を提案し,不確実性下での論理的推論を通じて,不正確な基底ラベル (iagtls) を用いた評価の原理を明らかにする。
LAFの原理から, LAFの実践性について概説する。
1) IAGTL を用いた評価には LAF を適用でき,AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
2) IAGTL を用いた評価には LAF が適用可能であり,AGTL を用いた評価の通常の戦略のようには機能しない。
関連論文リスト
- Evaluation of an LLM in Identifying Logical Fallacies: A Call for Rigor When Adopting LLMs in HCI Research [3.4245017707416157]
本稿では,デジタル誤情報介入の一部となる論理的誤信を識別するLLMの評価について述べる。
ラベル付きデータセットと比較すると,GPT-4の精度は0.79であり,無効または未同定のインスタンスを除外したユースケースでは0.90であることがわかった。
論文 参考訳(メタデータ) (2024-04-08T06:00:14Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - DyVal: Dynamic Evaluation of Large Language Models for Reasoning Tasks [112.66827096358857]
大規模言語モデル(LLM)の動的評価のためのプロトコルであるDyValを紹介する。
この枠組みに基づき、有向非巡回グラフの構造的利点を活用してグラフインフォームドDyValを構築する。
Flan-T5-large から GPT-3.5-Turbo および GPT-4 まで様々な LLM の評価を行った。
論文 参考訳(メタデータ) (2023-09-29T12:04:14Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - A Study on Differentiable Logic and LLMs for EPIC-KITCHENS-100
Unsupervised Domain Adaptation Challenge for Action Recognition 2023 [23.323548254515494]
本研究では,EPIC-KITCHENS-100 Unsupervised Domain Adaptation task for Action Recognitionについて検討した。
本研究は,動詞と名詞の共起関係を生かした学習における相異なる論理損失の革新的応用に焦点を当てた。
我々の最終提出(NS-LLM')は、トップ1アクション認識の精度で第1位を獲得しました。
論文 参考訳(メタデータ) (2023-07-13T05:54:05Z) - Validation of the Practicability of Logical Assessment Formula for
Evaluations with Inaccurate Ground-Truth Labels [2.8681767712152193]
論理的アセスメント公式(LAF)は不正確な地下構造ラベル(IAGTL)を用いた評価のための新しい理論である
本報告では, 乳腺癌に対する腫瘍郭清法 (TSfBC) にLAFを応用し, 臨床病理組織学的スライス画像解析 (MHWSIA) を行った。
実験結果と解析結果から,TSfBC症例における IAGTL 評価における LAF の有効性と,MHWSIA に対する LAF の有用性が示唆された。
論文 参考訳(メタデータ) (2023-07-06T01:17:29Z) - Multi-Scenario Empirical Assessment of Agile Governance Theory: A
Technical Report [55.2480439325792]
アジャイルガバナンス理論(AGT)は、ビジネスユニットやチーム間での責任の組織的連鎖の潜在的なモデルとして登場した。
本研究は,AGTが実際にどのように反映されているかを評価することを目的とする。
論文 参考訳(メタデータ) (2023-07-03T18:50:36Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - A Framework for Cluster and Classifier Evaluation in the Absence of
Reference Labels [23.658440146240025]
本稿では, 略基底真理補正 (AGTR) と呼ばれる参照ラベルを用いたサプリメントを提案する。
クラスタリングアルゴリズムの評価に使用される特定のメトリクスのバウンダリは、参照ラベルなしで計算できることを実証する。
また、AGTRを用いて、疑わしい品質のデータセットから得られた不正確な評価結果を特定する手順も導入する。
論文 参考訳(メタデータ) (2021-09-23T03:42:01Z) - Handling Noisy Labels via One-Step Abductive Multi-Target Learning and
Its Application to Helicobacter Pylori Segmentation [32.635694819049306]
機械学習に一段階論理的推論を課す一段階帰納的多目的学習(OSAMTL)を提案する。
我々はOSAMTLにより、より合理的な予測を論理的に達成できることを示した。
論文 参考訳(メタデータ) (2020-11-25T09:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。