Fugu-MT 論文翻訳(概要): Notes on the H-measure of classifier performance

論文の概要: Notes on the H-measure of classifier performance

arxiv url: http://arxiv.org/abs/2106.11888v1
Date: Tue, 22 Jun 2021 15:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-23 14:48:19.650245
Title: Notes on the H-measure of classifier performance
Title（参考訳）: 分類器性能のH測定に関する一考察
Authors: D. J. Hand and C. Anagnostopoulos
Abstract要約: H尺度は、相対的な誤分類コストの厳密な値が設定されることなく、適用の状況を考慮している。 2009年に導入されて以来、広く採用されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The H-measure is a classifier performance measure which takes into account the context of application without requiring a rigid value of relative misclassification costs to be set. Since its introduction in 2009 it has become widely adopted. This paper answers various queries which users have raised since its introduction, including questions about its interpretation, the choice of a weighting function, whether it is strictly proper, and its coherence, and relates the measure to other work.
Abstract（参考訳）: H尺度は、相対的な誤分類コストの厳密な値を必要とすることなく、アプリケーションのコンテキストを考慮した分類器のパフォーマンス尺度である。 2009年に導入されて以来、広く採用されている。本稿では,導入以来ユーザが提起してきた様々な質問に答え,その解釈,重み付け関数の選択,厳密な正当性,一貫性などについて問うとともに,その尺度を他の作業に関連付ける。

関連論文リスト

ConSens: Assessing context grounding in open-book question answering [0.0]
大規模言語モデル(LLM)は、オープンブック質問応答(QA)においてかなりの成功を収めた。オープンブックのQAにおける重要な課題は、モデル応答がパラメトリックな知識ではなく、提供されたコンテキストに基づいていることを保証することです。 2つの条件下でのモデル応答の難易度を対比する新しい計量法を提案する。結果のスコアは、与えられたコンテキストに依存するモデルの回答の範囲を定量化する。
論文参考訳（メタデータ） (2025-04-30T16:23:15Z)
Uncertainty Quantification in Retrieval Augmented Question Answering [57.05827081638329]
本稿では,QAモデルが備える通路の有効性を推定することで,QAモデルの不確実性を定量化する。我々は、目標QAモデルの通過効率を予測するために軽量ニューラルネットワークを訓練し、単純な情報理論のメトリクスが解の正しさをある程度予測できる一方で、より高価なサンプリングベースの手法を効率的に近似または上回ることを示す。
論文参考訳（メタデータ） (2025-02-25T11:24:52Z)
SUGAR: Leveraging Contextual Confidence for Smarter Retrieval [28.552283701883766]
セマンティック不確実性誘導適応検索(SUGAR)について紹介する。我々は、文脈に基づくエントロピーを利用して、検索するかどうかを積極的に決定し、シングルステップとマルチステップの検索を更に決定する。実験の結果,意味的不確実性推定によって導かれる選択探索により,多様な質問応答タスクのパフォーマンスが向上し,より効率的な推論が達成された。
論文参考訳（メタデータ） (2025-01-09T01:24:59Z)
Context Filtering with Reward Modeling in Question Answering [7.668954669688971]
Reward Modelingを通して重要コンテンツを要約し、非重要詳細を除去するコンテキストフィルタリング手法を導入する。 EMパートークン(EPT)の6.8倍の増大により,本手法がベースラインを大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-12-16T12:29:24Z)
Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Selecting a classification performance measure: matching the measure to the problem [1.634939455222784]
研究や応用の目的に合致するパフォーマンスの尺度を選択することは不可欠である。本論文は,異なるパフォーマンス尺度の相対的メリットに関する文献の増大に寄与するものである。
論文参考訳（メタデータ） (2024-09-19T01:32:02Z)
QLSC: A Query Latent Semantic Calibrator for Robust Extractive Question Answering [32.436530949623155]
クエリの潜在セマンティックセンターの特徴を捉えるために,ユニークなスケーリング戦略を提案する。これらの機能は、従来のクエリとパスの埋め込みにシームレスに統合されます。提案手法は,テキスト形式の変化に対する感度を低下させ,正確な回答をピンポイントするモデルの能力を高める。
論文参考訳（メタデータ） (2024-04-30T07:34:42Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
Clarify When Necessary: Resolving Ambiguity Through Interaction with LMs [58.620269228776294]
そこで本稿では,ユーザに対して,あいまいさを解消するためのタスク非依存のフレームワークを提案する。我々は3つのNLPアプリケーション(質問応答、機械翻訳、自然言語推論)にまたがるシステムを評価する。インテントシムは堅牢であり、幅広いNLPタスクやLMの改善を実証している。
論文参考訳（メタデータ） (2023-11-16T00:18:50Z)
Coherent Entity Disambiguation via Modeling Topic and Categorical Dependency [87.16283281290053]
従来のエンティティ曖昧化(ED)メソッドは、参照コンテキストと候補エンティティの一致するスコアに基づいて予測を行う、識別パラダイムを採用している。本稿では,エンティティ予測のコヒーレンス向上を目的とした新しいデザインを備えたEDシステムであるCoherentedを提案する。我々は、人気EDベンチマークにおいて、平均1.3F1ポイントの改善により、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-11-06T16:40:13Z)
Rethinking Word-Level Auto-Completion in Computer-Aided Translation [76.34184928621477]
Word-Level Auto-Completion (WLAC) はコンピュータ翻訳において重要な役割を果たす。それは、人間の翻訳者に対して単語レベルの自動補完提案を提供することを目的としている。我々は、この質問に答えるために測定可能な基準を導入し、既存のWLACモデルがこの基準を満たしていないことを発見する。評価基準の遵守を促進することによってWLAC性能を向上させる効果的な手法を提案する。
論文参考訳（メタデータ） (2023-10-23T03:11:46Z)
Benchmarking Answer Verification Methods for Question Answering-Based Summarization Evaluation Metrics [74.28810048824519]
質問応答に基づく要約評価メトリクスは、QAモデルの予測が正しいかどうかを自動的に判断する必要がある。筆者らは,現在QAベースのメトリクスで使用されている語彙的回答検証手法と,より洗練された2つのテキスト比較手法をベンチマークした。
論文参考訳（メタデータ） (2022-04-21T15:43:45Z)
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-16T00:38:35Z)
Effective FAQ Retrieval and Question Matching With Unsupervised Knowledge Injection [10.82418428209551]
質問に対して適切な回答を得るための文脈言語モデルを提案する。また、ドメイン固有の単語間のトポロジ関連関係を教師なしの方法で活用することについても検討する。提案手法のバリエーションを,公開可能な中国語FAQデータセット上で評価し,さらに大規模質問マッチングタスクに適用し,コンテキスト化する。
論文参考訳（メタデータ） (2020-10-27T05:03:34Z)
Analysing the Effect of Clarifying Questions on Document Ranking in Conversational Search [10.335808358080289]
質問の明確化とユーザの回答の相違がランキングの質に与える影響について検討する。単純な語彙ベースラインを導入し、既存のナイーブベースラインを著しく上回ります。
論文参考訳（メタデータ） (2020-08-09T12:55:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。