論文の概要: A Discussion on Building Practical NLP Leaderboards: The Case of Machine
Translation
- arxiv url: http://arxiv.org/abs/2106.06292v1
- Date: Fri, 11 Jun 2021 10:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-14 14:18:11.083344
- Title: A Discussion on Building Practical NLP Leaderboards: The Case of Machine
Translation
- Title(参考訳): 実践的NLPリーダーボードの構築に関する考察:機械翻訳の場合
- Authors: Sebastin Santy and Prasanta Bhattacharya
- Abstract要約: リーダーボードは、NLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。
本稿では,精度の指標にのみ焦点をあてるリスクについて,予備的な議論を行う。
- 参考スコア(独自算出の注目度): 5.482532589225552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in AI and ML applications have benefited from rapid progress
in NLP research. Leaderboards have emerged as a popular mechanism to track and
accelerate progress in NLP through competitive model development. While this
has increased interest and participation, the over-reliance on single, and
accuracy-based metrics have shifted focus from other important metrics that
might be equally pertinent to consider in real-world contexts. In this paper,
we offer a preliminary discussion of the risks associated with focusing
exclusively on accuracy metrics and draw on recent discussions to highlight
prescriptive suggestions on how to develop more practical and effective
leaderboards that can better reflect the real-world utility of models.
- Abstract(参考訳): AIとMLアプリケーションの最近の進歩は、NLP研究の急速な進歩の恩恵を受けている。
リーダーボードは、競争モデル開発を通じてNLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。
これは関心と参加を増しているが、単一および正確性に基づくメトリクスへの過度な依存は、現実世界の文脈で考慮すべき重要な指標に焦点を移している。
本稿では,精度指標のみに焦点をあてたリスクに関する予備的な議論を行い,モデルの実世界の実用性をよりよく反映できる,より実用的で効果的なリーダーボードの開発方法について,最近の議論に焦点をあてる。
関連論文リスト
- Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence [5.454656183053655]
我々は23の最先端のLarge Language Modelsベンチマークを批判的に評価する。
私たちの研究は、偏見、真の推論を測ることの難しさなど、重大な制限を発見しました。
静的ベンチマークから動的行動プロファイリングへの進化を提唱する。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Towards a General Framework for Continual Learning with Pre-training [59.96040498079991]
本稿では,事前学習を用いた逐次到着タスクの連続学習のための一般的な枠組みを提案する。
我々はその目的を,タスク内予測,タスク同一性推論,タスク適応予測という3つの階層的構成要素に分解する。
本稿では,パラメータ効率細調整(PEFT)技術と表現統計量を用いて,これらのコンポーネントを明示的に最適化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-21T02:03:38Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Going Beyond XAI: A Systematic Survey for Explanation-Guided Learning [8.835733039270364]
説明可能な人工知能(XAI)の技術は大きな注目を集めており、機械学習(ML)エンジニアがAIモデルを理解するのに大いに役立っている。
本稿は、説明指導学習(EGL)分野のタイムリーで広範な文献概要を提供する。
EGLは、モデル説明に正規化、監督、介入を追加することで、DNNの推論プロセスを制御するテクニックのドメインである。
論文 参考訳(メタデータ) (2022-12-07T20:59:59Z) - Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense
Reasoning [85.1541170468617]
本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。
提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットに対してゼロショット性能を向上する。
論文 参考訳(メタデータ) (2022-08-23T14:42:14Z) - FLEX: Unifying Evaluation for Few-Shot NLP [17.425495611344786]
我々はデシデラタを理想的な数ショットのNLPベンチマークとして定式化する。
最初のベンチマーク、公開リーダボード、フレームワークであるFLEXを紹介します。
また、数ショット学習のためのシンプルだが強力なプロンプトベースモデルであるUniFewも紹介する。
論文 参考訳(メタデータ) (2021-07-15T07:37:06Z) - Pre-Trained Models: Past, Present and Future [126.21572378910746]
大規模事前訓練モデル(PTM)は近年大きな成功を収め、人工知能(AI)分野におけるマイルストーンとなった。
知識を巨大なパラメータに格納し、特定のタスクを微調整することで、巨大なパラメータに暗黙的にエンコードされた豊富な知識は、さまざまな下流タスクの恩恵を受けることができる。
AIコミュニティが、モデルをスクラッチから学習するのではなく、下流タスクのバックボーンとしてPTMを採用することは、今、コンセンサスになっている。
論文 参考訳(メタデータ) (2021-06-14T02:40:32Z) - Recent Advances in Large Margin Learning [63.982279380483526]
本稿では,(非線形)深層ニューラルネットワーク(dnn)のための大規模マージントレーニングとその理論的基礎の最近の進歩に関する調査を行う。
古典研究から最新のDNNへの分類マージンの策定を一般化し、マージン、ネットワーク一般化、堅牢性の間の理論的関連性をまとめ、最近のDNNのマージン拡大の取り組みを総合的に紹介します。
論文 参考訳(メタデータ) (2021-03-25T04:12:00Z) - Utility is in the Eye of the User: A Critique of NLP Leaderboards [47.10283773005394]
リーダーボードでインセンティブを得たものと、マイクロ経済理論のレンズを通して実際に有用なものとの相違について検討する。
私たちは、リーダーボードとNLPの実践者の両方を消費者とみなし、その実用性としてモデルから得られる利益を彼らに与えています。
我々は、現実的な懸念のある統計の報告など、リーダーボード上でより透明性を主張する。
論文 参考訳(メタデータ) (2020-09-29T09:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。