Fugu-MT 論文翻訳(概要): Logical Assessment Formula and Its Principles for Evaluations with Inaccurate Ground-Truth Labels

論文の概要: Logical Assessment Formula and Its Principles for Evaluations with Inaccurate Ground-Truth Labels

arxiv url: http://arxiv.org/abs/2110.11567v4
Date: Sun, 7 Jan 2024 05:18:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 00:57:58.722491
Title: Logical Assessment Formula and Its Principles for Evaluations with Inaccurate Ground-Truth Labels
Title（参考訳）: 不正確な接地ラベルを用いた評価のための論理評価式とその原理
Authors: Yongquan Yang
Abstract要約: 不正確な基底構造ラベル(IAGTL)を用いた評価のための論理的評価式(LAF)を提案する。 LAF は IAGTL を用いた評価に応用でき、AGTL を用いた評価の通常の戦略のように合理的に行うことができる。
参考スコア（独自算出の注目度）: 1.19658449368018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluations with accurate ground-truth labels (AGTLs) have been widely employed to assess predictive models for artificial intelligence applications. However, in some specific fields, such as medical histopathology whole slide image analysis, it is quite usual the situation that AGTLs are difficult to be precisely defined or even do not exist. To alleviate this situation, we propose logical assessment formula (LAF) and reveal its principles for evaluations with inaccurate ground-truth labels (IAGTLs) via logical reasoning under uncertainty. From the revealed principles of LAF, we summarize the practicability of LAF: 1) LAF can be applied for evaluations with IAGTLs on a more difficult task, able to act like usual strategies for evaluations with AGTLs reasonably; 2) LAF can be applied for evaluations with IAGTLs from the logical perspective on an easier task, unable to act like usual strategies for evaluations with AGTLs confidently.
Abstract（参考訳）: 精度の高い基底構造ラベル(AGTL)を用いた評価は、人工知能応用の予測モデルを評価するために広く用いられている。しかし, 病理組織学, スライド画像解析などの特定の分野では, agtlsの正確な定義が困難であったり, 存在すらしなかったりする状況が一般的である。この状況を緩和するために,論理評価式 (laf) を提案し,不確実性下での論理的推論を通じて,不正確な基底ラベル (iagtls) を用いた評価の原理を明らかにする。 LAFの原理から, LAFの実践性について概説する。 1) IAGTL を用いた評価には LAF を適用でき,AGTL を用いた評価の通常の戦略のように合理的に行うことができる。 2) IAGTL を用いた評価には LAF が適用可能であり,AGTL を用いた評価の通常の戦略のようには機能しない。

関連論文リスト

HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。 HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文参考訳（メタデータ） (2025-10-14T07:13:26Z)
SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs [53.77646961962239]
Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。より少ない学習率で一般的な性能劣化を著しく軽減することができる。
論文参考訳（メタデータ） (2025-09-25T05:28:22Z)
GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning [9.226215535668162]
対戦型ゲームベースインタラクションに基づく適応評価フレームワークGuessArenaを提案する。我々のフレームワークは、動的ドメイン知識モデリングとプログレッシブ推論アセスメントをシームレスに統合します。
論文参考訳（メタデータ） (2025-05-28T17:59:43Z)
PL-FGSA: A Prompt Learning Framework for Fine-Grained Sentiment Analysis Based on MindSpore [0.0]
微粒な感情分析は、テキスト内の特定の側面に対する感情の極性を特定することを目的としている。従来のFGSAアプローチは、タスク固有のアーキテクチャと広範な注釈付きデータを必要とすることが多い。 PL-FGSAは,MindSporeプラットフォームを用いて実装された即時学習ベースの統合フレームワークである。提案手法は,FGSAを多タスク即時生成問題として再構成し,アスペクト抽出,感情分類,因果的説明を行う。
論文参考訳（メタデータ） (2025-05-20T10:18:10Z)
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark [12.208184074411896]
大規模言語モデル(LLM)は、一般的な実践においてかなりの可能性を示している。既存のベンチマークと評価フレームワークは、主に試験スタイルまたは単純化された質問応答形式に依存している。 GPとして機能するLLMの能力を評価するための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T01:02:44Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders [7.065809768803578]
SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
論文参考訳（メタデータ） (2024-10-09T21:42:39Z)
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (2024-08-28T13:16:41Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer [1.0128808054306186]
論理的評価式 (LAF) は,不正確な接地トラスラベル (IAGTL) を用いた評価のための新しい理論である。本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
論文参考訳（メタデータ） (2023-07-06T01:17:29Z)
Multi-Scenario Empirical Assessment of Agile Governance Theory: A Technical Report [55.2480439325792]
アジャイルガバナンス理論(AGT)は、ビジネスユニットやチーム間での責任の組織的連鎖の潜在的なモデルとして登場した。本研究は,AGTが実際にどのように反映されているかを評価することを目的とする。
論文参考訳（メタデータ） (2023-07-03T18:50:36Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Handling Noisy Labels via One-Step Abductive Multi-Target Learning and Its Application to Helicobacter Pylori Segmentation [32.635694819049306]
機械学習に一段階論理的推論を課す一段階帰納的多目的学習(OSAMTL)を提案する。我々はOSAMTLにより、より合理的な予測を論理的に達成できることを示した。
論文参考訳（メタデータ） (2020-11-25T09:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。