論文の概要: Logical Assessment Formula and its Principles for Evaluations without
Accurate Ground-Truth Labels
- arxiv url: http://arxiv.org/abs/2110.11567v1
- Date: Fri, 22 Oct 2021 03:18:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 14:35:00.971523
- Title: Logical Assessment Formula and its Principles for Evaluations without
Accurate Ground-Truth Labels
- Title(参考訳): 正確な接地ラベルのない評価のための論理評価式とその原理
- Authors: Yongquan Yang
- Abstract要約: 正確な基底構造ラベル (AGTL) を持たない評価のための論理的評価式 (LAF) が提案された。
本稿では,LAFの原理を包括的理論的分析により明らかにする。
乳がんに対する腫瘍郭清に応用したLAFの実験結果と解析により,LAFの実用性は明らかであった原則から要約された。
- 参考スコア(独自算出の注目度): 3.299672391663527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical assessment formula (LAF) was proposed for evaluations without
accurate ground-truth labels (AGTL). In this paper, we reveal the principles of
LAF via comprehensive theoretical analyses. From the revealed principles, we
summarize the practicability of LAF: 1) LAF can be reasonably applied for
evaluations without AGTL on a more difficult task, just acting like usual
strategies for evaluations with AGTL; 2) LAF can be applied for evaluations
without AGTL from the logical perspective on an easier task, unable to be
acting like usual strategies for evaluations with AGTL. Experimental results
and analyses of LAF applied on tumour segmentation for breast cancer support
the practicability of LAF summarized from the revealed principles.
- Abstract(参考訳): 正確な接地ラベル(agtl)のない評価のために論理評価式(laf)を提案した。
本稿では,LAFの原理を包括的理論的分析により明らかにする。
明らかにされた原則から, LAFの実践性について要約する。
1) LAF は AGTL を使わずに,より困難な作業において,AGTL を使わずに,通常の AGTL による評価戦略と同じように,合理的に適用することができる。
2) LAF は AGTL による評価の通常の戦略のように振る舞うことができないため,AGTL を含まない評価にも適用可能である。
乳がんに対する腫瘍郭清に応用したLAFの実験結果と解析により,LAFの実用性は明らかであった原則から要約された。
関連論文リスト
- EQUATOR: A Deterministic Framework for Evaluating LLM Reasoning with Open-Ended Questions. # v1.0.0-beta [2.1249213103048414]
本研究では,決定論的スコアと実測精度とロバストな推論評価に着目したEQUATOR評価器を提案する。
ベクトルデータベースを使用して、EQUATORは人間の評価された回答とオープンエンドの質問をペアリングし、より正確でスケーラブルな評価を可能にする。
この枠組みは,高精度な基準を維持しつつ,従来のマルチ選択評価を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-31T03:56:17Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。
航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文 参考訳(メタデータ) (2024-12-12T06:08:46Z) - SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders [7.065809768803578]
SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。
提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。
我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
論文 参考訳(メタデータ) (2024-10-09T21:42:39Z) - LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。
LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文 参考訳(メタデータ) (2024-08-28T13:16:41Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer [1.0128808054306186]
論理的評価式 (LAF) は,不正確な接地トラスラベル (IAGTL) を用いた評価のための新しい理論である。
本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
論文 参考訳(メタデータ) (2023-07-06T01:17:29Z) - Multi-Scenario Empirical Assessment of Agile Governance Theory: A
Technical Report [55.2480439325792]
アジャイルガバナンス理論(AGT)は、ビジネスユニットやチーム間での責任の組織的連鎖の潜在的なモデルとして登場した。
本研究は,AGTが実際にどのように反映されているかを評価することを目的とする。
論文 参考訳(メタデータ) (2023-07-03T18:50:36Z) - Handling Noisy Labels via One-Step Abductive Multi-Target Learning and
Its Application to Helicobacter Pylori Segmentation [32.635694819049306]
機械学習に一段階論理的推論を課す一段階帰納的多目的学習(OSAMTL)を提案する。
我々はOSAMTLにより、より合理的な予測を論理的に達成できることを示した。
論文 参考訳(メタデータ) (2020-11-25T09:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。