論文の概要: What is SemEval evaluating? A Systematic Analysis of Evaluation
Campaigns in NLP
- arxiv url: http://arxiv.org/abs/2005.14299v1
- Date: Thu, 28 May 2020 21:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-27 04:36:11.755996
- Title: What is SemEval evaluating? A Systematic Analysis of Evaluation
Campaigns in NLP
- Title(参考訳): SemEvalの評価とは?
NLPにおける評価キャンペーンの体系的分析
- Authors: Oskar Wysocki, Malina Florea, Andre Freitas
- Abstract要約: SemEvalは、新しい課題の提案とNLPシステムの体系的な経験的評価のために、NLPコミュニティの主要な場所である。
本稿では,SemEvalの背後にあるコントリビューションのパターンを実証することを目的とした,SemEvalの体系的定量的分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SemEval is the primary venue in the NLP community for the proposal of new
challenges and for the systematic empirical evaluation of NLP systems. This
paper provides a systematic quantitative analysis of SemEval aiming to evidence
the patterns of the contributions behind SemEval. By understanding the
distribution of task types, metrics, architectures, participation and citations
over time we aim to answer the question on what is being evaluated by SemEval.
- Abstract(参考訳): SemEvalは、新しい課題の提案とNLPシステムの体系的な経験的評価のために、NLPコミュニティの主要な場所である。
本稿では,SemEvalの背後にあるコントリビューションのパターンを実証することを目的とした,SemEvalの体系的定量的分析を行う。
タスクタイプ、メトリクス、アーキテクチャ、参加と引用の分散を理解することで、SemEvalで何が評価されているのかという質問に答えることを目指しています。
関連論文リスト
- Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - A Survey for Federated Learning Evaluations: Goals and Measures [26.120949005265345]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護機械学習のための新しいパラダイムである。
FLの評価は、その学際的な性質と、実用性、効率性、セキュリティといった様々な目標のために難しい。
我々はFLアルゴリズムの標準化された総合的な評価フレームワークを提供するオープンソースプラットフォームであるFedEvalを紹介した。
論文 参考訳(メタデータ) (2023-08-23T00:17:51Z) - Towards Interpretable Summary Evaluation via Allocation of Contextual
Embeddings to Reference Text Topics [1.5749416770494706]
多面的解釈可能な要約評価法(MISEM)は、要約の文脈トークンの埋め込みを、参照テキストで特定されたセマンティックトピックに割り当てることに基づいている。
MISEMはTAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。
論文 参考訳(メタデータ) (2022-10-25T17:09:08Z) - Measuring "Why" in Recommender Systems: a Comprehensive Survey on the
Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文 参考訳(メタデータ) (2022-02-14T02:58:55Z) - Unsupervised Reference-Free Summary Quality Evaluation via Contrastive
Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。
具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。
ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-10-05T05:04:14Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。