論文の概要: Utility is in the Eye of the User: A Critique of NLP Leaderboards
- arxiv url: http://arxiv.org/abs/2009.13888v4
- Date: Wed, 3 Mar 2021 06:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 04:59:46.261844
- Title: Utility is in the Eye of the User: A Critique of NLP Leaderboards
- Title(参考訳): ユーティリティはユーザの目の中にある - nlpリーダーボードの批判
- Authors: Kawin Ethayarajh, Dan Jurafsky
- Abstract要約: リーダーボードでインセンティブを得たものと、マイクロ経済理論のレンズを通して実際に有用なものとの相違について検討する。
私たちは、リーダーボードとNLPの実践者の両方を消費者とみなし、その実用性としてモデルから得られる利益を彼らに与えています。
我々は、現実的な懸念のある統計の報告など、リーダーボード上でより透明性を主張する。
- 参考スコア(独自算出の注目度): 47.10283773005394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Benchmarks such as GLUE have helped drive advances in NLP by incentivizing
the creation of more accurate models. While this leaderboard paradigm has been
remarkably successful, a historical focus on performance-based evaluation has
been at the expense of other qualities that the NLP community values in models,
such as compactness, fairness, and energy efficiency. In this opinion paper, we
study the divergence between what is incentivized by leaderboards and what is
useful in practice through the lens of microeconomic theory. We frame both the
leaderboard and NLP practitioners as consumers and the benefit they get from a
model as its utility to them. With this framing, we formalize how leaderboards
-- in their current form -- can be poor proxies for the NLP community at large.
For example, a highly inefficient model would provide less utility to
practitioners but not to a leaderboard, since it is a cost that only the former
must bear. To allow practitioners to better estimate a model's utility to them,
we advocate for more transparency on leaderboards, such as the reporting of
statistics that are of practical concern (e.g., model size, energy efficiency,
and inference latency).
- Abstract(参考訳): GLUEのようなベンチマークは、より正確なモデルの作成を動機付けることによって、NLPの進歩を促進するのに役立っている。
このリーダーボードのパラダイムは非常に成功したが、パフォーマンスに基づく評価は、NLPコミュニティがコンパクト性、公正性、エネルギー効率といったモデルで評価する他の品質を犠牲にしてきた。
本稿では,リーダーボードによるインセンティブと,マイクロエコノミクスのレンズを通して実践上有用なものとの相違について検討する。
私たちは、leaderboardとnlpの実践者の両方を消費者として、モデルからその実用性から得られる利益と捉えています。
このフレーミングによって、リーダーボードは、現在の形式で、nlpコミュニティ全体の貧弱なプロキシになり得る、と定式化します。
例えば、非常に非効率なモデルでは、前者だけが負担しなければならないコストであるため、実践者にとって実用性は低いが、リーダボードには提供されないだろう。
実践者がモデルの有用性をよりよく見積もることができるようにするため、実用的な関心事である統計(モデルサイズ、エネルギー効率、推論レイテンシなど)の報告など、リーダボードの透明性を高めることを推奨します。
関連論文リスト
- Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - ReffAKD: Resource-efficient Autoencoder-based Knowledge Distillation [3.301728339780329]
本稿では,資源量の多い教師モデルを必要としない知識蒸留効率を向上させる革新的な手法を提案する。
そこで本研究では,ソフトラベルを効率的に生成する手法を提案し,大規模な教師モデルの必要性を排除した。
CIFAR-100、Tiny Imagenet、Fashion MNISTなど、さまざまなデータセットに関する実験は、我々のアプローチの優れたリソース効率を実証している。
論文 参考訳(メタデータ) (2024-04-15T15:54:30Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Efficiency Pentathlon: A Standardized Arena for Efficiency Evaluation [82.85015548989223]
Pentathlonは、モデル効率の総合的で現実的な評価のためのベンチマークである。
Pentathlonは、モデルライフサイクルにおける計算の大部分を占める推論に焦点を当てている。
レイテンシ、スループット、メモリオーバーヘッド、エネルギー消費など、さまざまな効率面をターゲットにしたメトリクスが組み込まれている。
論文 参考訳(メタデータ) (2023-07-19T01:05:33Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - The Efficiency Misnomer [50.69516433266469]
我々は、共通のコスト指標、それらの利点とデメリット、そしてそれらが相互に矛盾する方法について論じる。
コストインジケータの不完全な報告が、どのようにして部分的な結論をもたらすかを示し、異なるモデルの実践的考察の曖昧さや不完全さを図示する。
論文 参考訳(メタデータ) (2021-10-25T12:48:07Z) - A Discussion on Building Practical NLP Leaderboards: The Case of Machine
Translation [5.482532589225552]
リーダーボードは、NLPの進歩を追跡し、加速するための一般的なメカニズムとして現れています。
本稿では,精度の指標にのみ焦点をあてるリスクについて,予備的な議論を行う。
論文 参考訳(メタデータ) (2021-06-11T10:24:35Z) - How Robust are Model Rankings: A Leaderboard Customization Approach for
Equitable Evaluation [0.0]
トップリーダーボードのモデルは、現実世界のアプリケーションにデプロイされた場合、しばしば不満足に機能します。
本稿では,その難易度に基づいてサンプルを重み付けすることで,リーダボードを探索するタスク非依存手法を提案する。
リーダーボードは敵に攻撃される可能性があり、トップパフォーマンスモデルは必ずしもベストモデルであるとは限らない。
論文 参考訳(メタデータ) (2021-06-10T06:47:35Z) - Dynaboard: An Evaluation-As-A-Service Platform for Holistic
Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。
我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文 参考訳(メタデータ) (2021-05-21T01:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。