論文の概要: A Discussion on Building Practical NLP Leaderboards: The Case of Machine
Translation
- arxiv url: http://arxiv.org/abs/2106.06292v1
- Date: Fri, 11 Jun 2021 10:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:18:11.083344
- Title: A Discussion on Building Practical NLP Leaderboards: The Case of Machine
Translation
- Title(参考訳): 実践的NLPリーダーボードの構築に関する考察:機械翻訳の場合
- Authors: Sebastin Santy and Prasanta Bhattacharya
- Abstract要約: リーダーボードは、NLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。
本稿では,精度の指標にのみ焦点をあてるリスクについて,予備的な議論を行う。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in AI and ML applications have benefited from rapid progress
in NLP research. Leaderboards have emerged as a popular mechanism to track and
accelerate progress in NLP through competitive model development. While this
has increased interest and participation, the over-reliance on single, and
accuracy-based metrics have shifted focus from other important metrics that
might be equally pertinent to consider in real-world contexts. In this paper,
we offer a preliminary discussion of the risks associated with focusing
exclusively on accuracy metrics and draw on recent discussions to highlight
prescriptive suggestions on how to develop more practical and effective
leaderboards that can better reflect the real-world utility of models.
- Abstract(参考訳): AIとMLアプリケーションの最近の進歩は、NLP研究の急速な進歩の恩恵を受けている。
リーダーボードは、競争モデル開発を通じてNLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。
これは関心と参加を増しているが、単一および正確性に基づくメトリクスへの過度な依存は、現実世界の文脈で考慮すべき重要な指標に焦点を移している。
本稿では,精度指標のみに焦点をあてたリスクに関する予備的な議論を行い,モデルの実世界の実用性をよりよく反映できる,より実用的で効果的なリーダーボードの開発方法について,最近の議論に焦点をあてる。
関連論文リスト
- Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。
既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。
議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文 参考訳(メタデータ) (2024-11-07T22:36:19Z) - Efficient Pointwise-Pairwise Learning-to-Rank for News Recommendation [6.979979613916754]
ニュースレコメンデーションは、各ユーザのインタラクション履歴と好みに基づいてパーソナライズを行う、困難なタスクである。
最近の研究は、事前学習された言語モデル(PLM)の力を利用して、ニュース項目を直接ランク付けする手法を用いて、ポイントワイド、ペアワイド、リストワイドの3つのカテゴリに分類している。
本稿では,PLMに基づくニュースレコメンデーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-26T10:27:19Z) - Initial Insights on MLOps: Perception and Adoption by Practitioners [9.777475640906404]
MLOps(Machine Learning and Operations)ガイドラインがこの分野の主要なリファレンスとして登場した。
MLOpsガイドラインの導入にも拘わらず、その実装には懐疑論の程度がある。
この研究は、MLOpsとその機械学習におけるイノベーションの次のフェーズへの影響について、より深い洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2024-08-01T11:08:29Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Towards a General Framework for Continual Learning with Pre-training [55.88910947643436]
本稿では,事前学習を用いた逐次到着タスクの連続学習のための一般的な枠組みを提案する。
我々はその目的を,タスク内予測,タスク同一性推論,タスク適応予測という3つの階層的構成要素に分解する。
本稿では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T02:03:38Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z) - Recent Advances in Large Margin Learning [63.982279380483526]
本稿では,(非線形)深層ニューラルネットワーク(dnn)のための大規模マージントレーニングとその理論的基礎の最近の進歩に関する調査を行う。
古典研究から最新のDNNへの分類マージンの策定を一般化し、マージン、ネットワーク一般化、堅牢性の間の理論的関連性をまとめ、最近のDNNのマージン拡大の取り組みを総合的に紹介します。
論文 参考訳(メタデータ) (2021-03-25T04:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。