論文の概要: Logical Assessment Formula and Its Principles for Evaluations with
Inaccurate Ground-Truth Labels
- arxiv url: http://arxiv.org/abs/2110.11567v4
- Date: Sun, 7 Jan 2024 05:18:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:57:58.722491
- Title: Logical Assessment Formula and Its Principles for Evaluations with
Inaccurate Ground-Truth Labels
- Title(参考訳): 不正確な接地ラベルを用いた評価のための論理評価式とその原理
- Authors: Yongquan Yang
- Abstract要約: 不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。
LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
- 参考スコア(独自算出の注目度): 1.19658449368018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluations with accurate ground-truth labels (AGTLs) have been widely
employed to assess predictive models for artificial intelligence applications.
However, in some specific fields, such as medical histopathology whole slide
image analysis, it is quite usual the situation that AGTLs are difficult to be
precisely defined or even do not exist. To alleviate this situation, we propose
logical assessment formula (LAF) and reveal its principles for evaluations with
inaccurate ground-truth labels (IAGTLs) via logical reasoning under
uncertainty. From the revealed principles of LAF, we summarize the
practicability of LAF: 1) LAF can be applied for evaluations with IAGTLs on a
more difficult task, able to act like usual strategies for evaluations with
AGTLs reasonably; 2) LAF can be applied for evaluations with IAGTLs from the
logical perspective on an easier task, unable to act like usual strategies for
evaluations with AGTLs confidently.
- Abstract(参考訳): 精度の高い基底構造ラベル(AGTL)を用いた評価は、人工知能応用の予測モデルを評価するために広く用いられている。
しかし, 病理組織学, スライド画像解析などの特定の分野では, agtlsの正確な定義が困難であったり, 存在すらしなかったりする状況が一般的である。
この状況を緩和するために,論理評価式 (laf) を提案し,不確実性下での論理的推論を通じて,不正確な基底ラベル (iagtls) を用いた評価の原理を明らかにする。
LAFの原理から, LAFの実践性について概説する。
1) IAGTL を用いた評価には LAF を適用でき,AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
2) IAGTL を用いた評価には LAF が適用可能であり,AGTL を用いた評価の通常の戦略のようには機能しない。
関連論文リスト
- SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders [7.065809768803578]
SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。
提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。
我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
論文 参考訳(メタデータ) (2024-10-09T21:42:39Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer [1.0128808054306186]
論理的評価式 (LAF) は,不正確な接地トラスラベル (IAGTL) を用いた評価のための新しい理論である。
本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
論文 参考訳(メタデータ) (2023-07-06T01:17:29Z) - Multi-Scenario Empirical Assessment of Agile Governance Theory: A
Technical Report [55.2480439325792]
アジャイルガバナンス理論(AGT)は、ビジネスユニットやチーム間での責任の組織的連鎖の潜在的なモデルとして登場した。
本研究は,AGTが実際にどのように反映されているかを評価することを目的とする。
論文 参考訳(メタデータ) (2023-07-03T18:50:36Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Handling Noisy Labels via One-Step Abductive Multi-Target Learning and
Its Application to Helicobacter Pylori Segmentation [32.635694819049306]
機械学習に一段階論理的推論を課す一段階帰納的多目的学習(OSAMTL)を提案する。
我々はOSAMTLにより、より合理的な予測を論理的に達成できることを示した。
論文 参考訳(メタデータ) (2020-11-25T09:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。