論文の概要: No Gold Standard, No Problem: Reference-Free Evaluation of Taxonomies
- arxiv url: http://arxiv.org/abs/2505.11470v1
- Date: Fri, 16 May 2025 17:25:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:15.769792
- Title: No Gold Standard, No Problem: Reference-Free Evaluation of Taxonomies
- Title(参考訳): 金の基準も問題もない-税務省の基準フリー評価
- Authors: Pascal Wullschleger, Majid Zarharan, Donnacha Daly, Marc Pouly, Jennifer Foster,
- Abstract要約: 品質評価のための基準フリーメトリクスを2つ導入する。
1つ目は、意味的類似性と分類学的類似性との相関を計算して頑健性を評価する。
2つ目は、論理的妥当性を評価するために自然言語推論を使用する。
- 参考スコア(独自算出の注目度): 8.857121235887186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce two reference-free metrics for quality evaluation of taxonomies. The first metric evaluates robustness by calculating the correlation between semantic and taxonomic similarity, covering a type of error not handled by existing metrics. The second uses Natural Language Inference to assess logical adequacy. Both metrics are tested on five taxonomies and are shown to correlate well with F1 against gold-standard taxonomies.
- Abstract(参考訳): 分類学の品質評価のための基準のない指標を2つ導入する。
第1の尺度は、意味的類似性と分類学的類似性の間の相関を計算し、既存の指標で処理されていないエラーの種類をカバーすることにより、ロバスト性を評価する。
2つ目は、論理的妥当性を評価するために自然言語推論を使用する。
どちらの指標も5つの分類群でテストされ、F1とゴールド標準分類群との相関がよく示されている。
関連論文リスト
- Taxonomy-Aware Evaluation of Vision-Language Models [48.285819827561625]
本稿では,視覚言語モデルから生成されたような制約のないテキスト予測を分類学に対して評価するためのフレームワークを提案する。
具体的には,分類学における予測の正しさと特異性を評価するために,階層的精度とリコール対策を用いることを提案する。
論文 参考訳(メタデータ) (2025-04-07T19:46:59Z) - Revisiting Classification Taxonomy for Grammatical Errors [29.551585148209895]
文法的誤り分類は、言語学習システムにおいて重要な役割を果たす。
既存の分類は厳格な検証を欠くことが多く、矛盾と信頼できないフィードバックにつながります。
本稿では,系統的,定性的な評価枠組みを導入することで,文法的誤りに対する以前の分類を再考する。
論文 参考訳(メタデータ) (2025-02-17T15:16:44Z) - Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness [106.52630978891054]
視覚言語AIシステムに特有の不確実性の分類法を提案する。
また、精度と校正誤差の両方によく相関する新しい計量信頼度重み付き精度を導入する。
論文 参考訳(メタデータ) (2024-07-02T04:23:54Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - On the Intrinsic and Extrinsic Fairness Evaluation Metrics for
Contextualized Language Representations [74.70957445600936]
様々な自然言語処理タスクの公平度を測定するために、複数のメトリクスが導入された。
これらの指標は,(1)下流アプリケーションにおけるフェアネスを評価する遠因性指標と,(2)上流言語表現モデルにおけるフェアネスを推定する遠因性指標の2つのカテゴリに大別することができる。
論文 参考訳(メタデータ) (2022-03-25T22:17:43Z) - Revisiting the Evaluation Metrics of Paraphrase Generation [35.6803390044542]
多くの既存のパラフレーズ生成モデルは、生成されたパラフレーズを評価するために参照ベースのメトリクスを使用する。
本稿では、生成されたパラフレーズの品質を反映できる参照フリーメトリックであるBBScoreを提案する。
論文 参考訳(メタデータ) (2022-02-17T07:18:54Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。