Fugu-MT 論文翻訳(概要): Logical Assessment Formula and its Principles for Evaluations without Accurate Ground-Truth Labels

論文の概要: Logical Assessment Formula and its Principles for Evaluations without Accurate Ground-Truth Labels

arxiv url: http://arxiv.org/abs/2110.11567v1
Date: Fri, 22 Oct 2021 03:18:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-25 14:35:00.971523
Title: Logical Assessment Formula and its Principles for Evaluations without Accurate Ground-Truth Labels
Title（参考訳）: 正確な接地ラベルのない評価のための論理評価式とその原理
Authors: Yongquan Yang
Abstract要約: 正確な基底構造ラベル (AGTL) を持たない評価のための論理的評価式 (LAF) が提案された。本稿では,LAFの原理を包括的理論的分析により明らかにする。乳がんに対する腫瘍郭清に応用したLAFの実験結果と解析により,LAFの実用性は明らかであった原則から要約された。
参考スコア（独自算出の注目度）: 3.299672391663527
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Logical assessment formula (LAF) was proposed for evaluations without accurate ground-truth labels (AGTL). In this paper, we reveal the principles of LAF via comprehensive theoretical analyses. From the revealed principles, we summarize the practicability of LAF: 1) LAF can be reasonably applied for evaluations without AGTL on a more difficult task, just acting like usual strategies for evaluations with AGTL; 2) LAF can be applied for evaluations without AGTL from the logical perspective on an easier task, unable to be acting like usual strategies for evaluations with AGTL. Experimental results and analyses of LAF applied on tumour segmentation for breast cancer support the practicability of LAF summarized from the revealed principles.
Abstract（参考訳）: 正確な接地ラベル(agtl)のない評価のために論理評価式(laf)を提案した。本稿では,LAFの原理を包括的理論的分析により明らかにする。明らかにされた原則から, LAFの実践性について要約する。 1) LAF は AGTL を使わずに,より困難な作業において,AGTL を使わずに,通常の AGTL による評価戦略と同じように,合理的に適用することができる。 2) LAF は AGTL による評価の通常の戦略のように振る舞うことができないため,AGTL を含まない評価にも適用可能である。乳がんに対する腫瘍郭清に応用したLAFの実験結果と解析により,LAFの実用性は明らかであった原則から要約された。

関連論文リスト

HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。 HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文参考訳（メタデータ） (2025-10-14T07:13:26Z)
SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs [53.77646961962239]
Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。より少ない学習率で一般的な性能劣化を著しく軽減することができる。
論文参考訳（メタデータ） (2025-09-25T05:28:22Z)
GuessArena: Guess Who I Am? A Self-Adaptive Framework for Evaluating LLMs in Domain-Specific Knowledge and Reasoning [9.226215535668162]
対戦型ゲームベースインタラクションに基づく適応評価フレームワークGuessArenaを提案する。我々のフレームワークは、動的ドメイン知識モデリングとプログレッシブ推論アセスメントをシームレスに統合します。
論文参考訳（メタデータ） (2025-05-28T17:59:43Z)
PL-FGSA: A Prompt Learning Framework for Fine-Grained Sentiment Analysis Based on MindSpore [0.0]
微粒な感情分析は、テキスト内の特定の側面に対する感情の極性を特定することを目的としている。従来のFGSAアプローチは、タスク固有のアーキテクチャと広範な注釈付きデータを必要とすることが多い。 PL-FGSAは,MindSporeプラットフォームを用いて実装された即時学習ベースの統合フレームワークである。提案手法は,FGSAを多タスク即時生成問題として再構成し,アスペクト抽出,感情分類,因果的説明を行う。
論文参考訳（メタデータ） (2025-05-20T10:18:10Z)
Evaluating Clinical Competencies of Large Language Models with a General Practice Benchmark [12.208184074411896]
大規模言語モデル(LLM)は、一般的な実践においてかなりの可能性を示している。既存のベンチマークと評価フレームワークは、主に試験スタイルまたは単純化された質問応答形式に依存している。 GPとして機能するLLMの能力を評価するための新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T01:02:44Z)
SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文参考訳（メタデータ） (2025-03-05T09:37:05Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios [58.90106984375913]
RuleArenaは、大規模言語モデル(LLM)が推論において複雑な現実世界のルールに従う能力を評価するために設計された、新しくて挑戦的なベンチマークである。航空会社の荷物手数料、NBA取引、税制の3つの実践的領域をカバーするルールアリーナは、複雑な自然言語命令を扱うのにLLMの習熟度を評価する。
論文参考訳（メタデータ） (2024-12-12T06:08:46Z)
SAGE: Scalable Ground Truth Evaluations for Large Sparse Autoencoders [7.065809768803578]
SAGE: Scalable Autoencoder Ground-Truth Evaluationは,SAEの真理評価フレームワークである。提案手法は,タスク固有のアクティベーションを自動的に識別し,これらの点における基底的真理特徴を計算できることを実証する。我々の枠組みは、解釈可能性研究におけるSAEの一般化可能な大規模評価の道を開くものである。
論文参考訳（メタデータ） (2024-10-09T21:42:39Z)
LogicGame: Benchmarking Rule-Based Reasoning Abilities of Large Language Models [87.49676980090555]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示し、複雑な問題解決能力を示している。 LLMの包括的なルール理解、実行、計画能力を評価するために設計された新しいベンチマークであるLogicGameを紹介する。
論文参考訳（メタデータ） (2024-08-28T13:16:41Z)
Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文参考訳（メタデータ） (2024-06-28T20:06:30Z)
LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。 GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文参考訳（メタデータ） (2024-01-01T13:53:53Z)
Validation of the Practicability of Logical Assessment Formula for Evaluations with Inaccurate Ground-Truth Labels: An Application Study on Tumour Segmentation for Breast Cancer [1.0128808054306186]
論理的評価式 (LAF) は,不正確な接地トラスラベル (IAGTL) を用いた評価のための新しい理論である。本稿では,実世界のアプリケーションにおける IAGTL を用いた評価のための LAF の実用的検証について述べる。
論文参考訳（メタデータ） (2023-07-06T01:17:29Z)
Multi-Scenario Empirical Assessment of Agile Governance Theory: A Technical Report [55.2480439325792]
アジャイルガバナンス理論(AGT)は、ビジネスユニットやチーム間での責任の組織的連鎖の潜在的なモデルとして登場した。本研究は,AGTが実際にどのように反映されているかを評価することを目的とする。
論文参考訳（メタデータ） (2023-07-03T18:50:36Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-05-23T18:01:49Z)
Handling Noisy Labels via One-Step Abductive Multi-Target Learning and Its Application to Helicobacter Pylori Segmentation [32.635694819049306]
機械学習に一段階論理的推論を課す一段階帰納的多目的学習(OSAMTL)を提案する。我々はOSAMTLにより、より合理的な予測を論理的に達成できることを示した。
論文参考訳（メタデータ） (2020-11-25T09:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。