Fugu-MT 論文翻訳(概要): What is SemEval evaluating? A Systematic Analysis of Evaluation Campaigns in NLP

論文の概要: What is SemEval evaluating? A Systematic Analysis of Evaluation Campaigns in NLP

arxiv url: http://arxiv.org/abs/2005.14299v1
Date: Thu, 28 May 2020 21:17:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-27 04:36:11.755996
Title: What is SemEval evaluating? A Systematic Analysis of Evaluation Campaigns in NLP
Title（参考訳）: SemEvalの評価とは? NLPにおける評価キャンペーンの体系的分析
Authors: Oskar Wysocki, Malina Florea, Andre Freitas
Abstract要約: SemEvalは、新しい課題の提案とNLPシステムの体系的な経験的評価のために、NLPコミュニティの主要な場所である。本稿では,SemEvalの背後にあるコントリビューションのパターンを実証することを目的とした,SemEvalの体系的定量的分析を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: SemEval is the primary venue in the NLP community for the proposal of new challenges and for the systematic empirical evaluation of NLP systems. This paper provides a systematic quantitative analysis of SemEval aiming to evidence the patterns of the contributions behind SemEval. By understanding the distribution of task types, metrics, architectures, participation and citations over time we aim to answer the question on what is being evaluated by SemEval.
Abstract（参考訳）: SemEvalは、新しい課題の提案とNLPシステムの体系的な経験的評価のために、NLPコミュニティの主要な場所である。本稿では,SemEvalの背後にあるコントリビューションのパターンを実証することを目的とした,SemEvalの体系的定量的分析を行う。タスクタイプ、メトリクス、アーキテクチャ、参加と引用の分散を理解することで、SemEvalで何が評価されているのかという質問に答えることを目指しています。

関連論文リスト

InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem [87.30601926271864]
InnoEvalは、人間レベルのアイデアアセスメントをエミュレートするために設計された、深いイノベーション評価フレームワークである。我々は,多様なオンライン情報源から動的証拠を検索し,根拠とする異種深層知識検索エンジンを適用した。 InnoEvalをベンチマークするために、権威あるピアレビューされた提案から派生した包括的なデータセットを構築します。
論文参考訳（メタデータ） (2026-02-16T00:40:31Z)
Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文参考訳（メタデータ） (2025-03-28T14:08:40Z)
EvalSVA: Multi-Agent Evaluators for Next-Gen Software Vulnerability Assessment [17.74561647070259]
ソフトウェア脆弱性(SV)評価のさまざまな側面を自律的に検討し,評価するために,マルチエージェント評価チームであるEvalSVAを紹介した。 EvalSVAは人間のようなプロセスを提供し、SVアセスメントの理由と答えの両方を生成する。
論文参考訳（メタデータ） (2024-12-11T08:00:50Z)
Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。世界中から約1200チームが参加した。トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文参考訳（メタデータ） (2024-06-13T12:58:00Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文参考訳（メタデータ） (2023-11-01T17:44:35Z)
Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文参考訳（メタデータ） (2023-10-03T09:46:02Z)
A Survey for Federated Learning Evaluations: Goals and Measures [26.120949005265345]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護機械学習のための新しいパラダイムである。 FLの評価は、その学際的な性質と、実用性、効率性、セキュリティといった様々な目標のために難しい。我々はFLアルゴリズムの標準化された総合的な評価フレームワークを提供するオープンソースプラットフォームであるFedEvalを紹介した。
論文参考訳（メタデータ） (2023-08-23T00:17:51Z)
Towards Interpretable Summary Evaluation via Allocation of Contextual Embeddings to Reference Text Topics [1.5749416770494706]
多面的解釈可能な要約評価法(MISEM)は、要約の文脈トークンの埋め込みを、参照テキストで特定されたセマンティックトピックに割り当てることに基づいている。 MISEMはTAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。
論文参考訳（メタデータ） (2022-10-25T17:09:08Z)
Measuring "Why" in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation [87.82664566721917]
この調査は、IJCAI、AAAI、TheWebConf、Recsys、UMAP、IUIといったトップレベルのカンファレンスから100以上の論文に基づいています。
論文参考訳（メタデータ） (2022-02-14T02:58:55Z)
Unsupervised Reference-Free Summary Quality Evaluation via Contrastive Learning [66.30909748400023]
教師なしコントラスト学習により,参照要約を使わずに要約品質を評価することを提案する。具体的には、BERTに基づく言語的品質と意味情報の両方をカバーする新しい指標を設計する。ニューズルームとCNN/デイリーメールの実験では,新たな評価手法が参照サマリーを使わずに他の指標よりも優れていることが示された。
論文参考訳（メタデータ） (2020-10-05T05:04:14Z)
SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文参考訳（メタデータ） (2020-06-12T10:40:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。