Fugu-MT 論文翻訳(概要): A Unified View of Evaluation Metrics for Structured Prediction

論文の概要: A Unified View of Evaluation Metrics for Structured Prediction

arxiv url: http://arxiv.org/abs/2310.13793v1
Date: Fri, 20 Oct 2023 20:02:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 05:19:06.913276
Title: A Unified View of Evaluation Metrics for Structured Prediction
Title（参考訳）: 構造予測のための評価指標の統一的視点
Authors: Yunmo Chen, William Gantt, Tongfei Chen, Aaron Steven White, Benjamin Van Durme
Abstract要約: 本稿では,異なる予測タスクに対する評価指標を統一する概念的枠組みを提案する。我々のフレームワークは、これらのタスクの出力を特定のデータ型のオブジェクトとして表現する必要があります。出力構造に基づいたボトムアップ方式で,新しい指標を自然に導出できることが示される。
参考スコア（独自算出の注目度）: 41.29492827464339
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a conceptual framework that unifies a variety of evaluation metrics for different structured prediction tasks (e.g. event and relation extraction, syntactic and semantic parsing). Our framework requires representing the outputs of these tasks as objects of certain data types, and derives metrics through matching of common substructures, possibly followed by normalization. We demonstrate how commonly used metrics for a number of tasks can be succinctly expressed by this framework, and show that new metrics can be naturally derived in a bottom-up way based on an output structure. We release a library that enables this derivation to create new metrics. Finally, we consider how specific characteristics of tasks motivate metric design decisions, and suggest possible modifications to existing metrics in line with those motivations.
Abstract（参考訳）: 本稿では,様々な構造化予測タスク(イベントと関係抽出,構文解析,意味解析など)に対して,様々な評価指標を統合する概念的枠組みを提案する。私たちのフレームワークでは、これらのタスクの出力を特定のデータ型のオブジェクトとして表現する必要があります。我々は,多数のタスクで使用されるメトリクスが,このフレームワークによって簡潔に表現できることを示すとともに,新しいメトリクスが,出力構造に基づいてボトムアップ方式で自然に導出できることを示す。私たちはこの派生によって新しいメトリクスを作成できるライブラリをリリースします。最後に、タスクの特定の特性がメトリクス設計の決定を動機付けているかを検討し、それらのモチベーションに沿った既存のメトリクスの変更を提案する。

関連論文リスト

Multimodal Benchmarking and Recommendation of Text-to-Image Generation Models [0.0]
本研究は,テキスト・ツー・イメージ・ジェネレーション・モデルのためのオープンソースの統一ベンチマーク・評価フレームワークを提案する。本フレームワークは,モデル選択のためのタスク固有のレコメンデーションと,評価指標に基づく設計の促進を可能にする。
論文参考訳（メタデータ） (2025-05-06T18:53:34Z)
Towards an Improved Metric for Evaluating Disentangled Representations [0.6946415403594184]
切り離された表現学習は、表現を制御可能、解釈可能、転送可能にする上で重要な役割を果たす。領域におけるその重要性にもかかわらず、信頼性と一貫した量的絡み合い計量の探求は依然として大きな課題である。そこで本稿では, 直感的概念の強調と係数-符号関係の改善を生かしたemphEDIという測度を導入することにより, 絡み合いの定量化のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2024-10-04T00:32:59Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Promptly Predicting Structures: The Return of Inference [31.442123334313035]
ゼロショットと少数ショットの言語構造予測器を構築するためのフレームワークを提案する。その結果, 整合性の維持は構造的に有効であるだけでなく, 性能も向上することがわかった。
論文参考訳（メタデータ） (2024-01-12T20:08:39Z)
MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文参考訳（メタデータ） (2023-06-15T06:51:35Z)
Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文参考訳（メタデータ） (2023-05-19T08:22:23Z)
Variable Importance Matching for Causal Inference [73.25504313552516]
これらの目標を達成するためのModel-to-Matchと呼ばれる一般的なフレームワークについて説明する。 Model-to-Matchは、距離メートル法を構築するために変数重要度測定を使用する。 LASSO を用いて Model-to-Match フレームワークを運用する。
論文参考訳（メタデータ） (2023-02-23T00:43:03Z)
Analyzing Text Representations under Tight Annotation Budgets: Measuring Structural Alignment [2.198430261120653]
厳密なアノテーションの予算の下では、データ表現の選択が重要になります。与えられた表現がタスクと構造的に整合している範囲を測定する指標を提案する。
論文参考訳（メタデータ） (2022-10-11T18:28:19Z)
Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文参考訳（メタデータ） (2022-04-16T03:12:30Z)
A Unified Framework for Rank-based Evaluation Metrics for Link Prediction in Knowledge Graphs [19.822126244784133]
負の負の3倍数を持たない知識グラフ上のリンク予測タスクは、ランクベースのメトリクスの使用を動機付けている。本稿では,既存の測度を改善するための2つの方法について,代替アグリゲーション関数と確率論の概念を用いて検討する。本稿では,知識グラフ埋め込みモデルのベンチマークにおいて,その使用例を示すとともに,より容易に解釈・比較できる新しいランクベースの指標を提案する。
論文参考訳（メタデータ） (2022-03-14T23:09:46Z)
Leveraging Class Hierarchies with Metric-Guided Prototype Learning [5.070542698701158]
多くの分類タスクでは、ターゲットクラスのセットは階層に分類できる。この構造はクラス間の意味的距離を誘導し、コスト行列の形で要約することができる。本稿では,この指標を原型ネットワークの監視に組み込むことにより,階層型クラス構造をモデル化することを提案する。
論文参考訳（メタデータ） (2020-07-06T20:22:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。