論文の概要: Evaluation for Change
- arxiv url: http://arxiv.org/abs/2212.11670v1
- Date: Tue, 20 Dec 2022 17:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:41:37.170583
- Title: Evaluation for Change
- Title(参考訳): 変化の評価
- Authors: Rishi Bommasani
- Abstract要約: 評価はそれ以上であるべきだ、と私たちは主張する。
NLPの現在の軌道は、評価のパワーが低下していることを示唆している。
- 参考スコア(独自算出の注目度): 8.818311905218225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is the central means for assessing, understanding, and
communicating about NLP models. In this position paper, we argue evaluation
should be more than that: it is a force for driving change, carrying a
sociological and political character beyond its technical dimensions. As a
force, evaluation's power arises from its adoption: under our view, evaluation
succeeds when it achieves the desired change in the field. Further, by framing
evaluation as a force, we consider how it competes with other forces. Under our
analysis, we conjecture that the current trajectory of NLP suggests
evaluation's power is waning, in spite of its potential for realizing more
pluralistic ambitions in the field. We conclude by discussing the legitimacy of
this power, who acquires this power and how it distributes. Ultimately, we hope
the research community will more aggressively harness evaluation for change.
- Abstract(参考訳): 評価は、nlpモデルの評価、理解、およびコミュニケーションの中心的な手段である。
本論文では,その技術的側面を超えて社会学的・政治的性格を担いながら,変革を推進するための力である,という以上の評価が必要であると論じる。
力として、評価の力はその採用から生じ、我々の見解では、評価はフィールドの望ましい変化を達成するときに成功する。
さらに,評価を力としてフレーミングすることで,他の力とどのように競合するかを検討する。
解析では,NLPの現在の軌道は,この分野におけるより多元的な野心を実現する可能性にもかかわらず,評価のパワーが低下していることを示唆している。
我々は、この権力の正当性を議論し、誰がこの権力を獲得し、どのように分配するかを論じる。
最終的には、研究コミュニティが変化に対する評価をより積極的に活用することを期待しています。
関連論文リスト
- Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。
我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文 参考訳(メタデータ) (2024-01-30T15:45:30Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony
and Sarcasm Generation [16.591822946975547]
より難解な言語の生成は、選択した評価器パネルの特性が最重要となるサブドメインを構成すると論じる。
本研究は,NLGにおける最近の研究を批判的に調査し,本サブドメインにおける評価方法の評価を行った。
評価対象の人口統計情報の公開報告の欠如や、採用のためのクラウドソーシングプラットフォームに大きく依存していることに留意する。
論文 参考訳(メタデータ) (2023-11-09T17:50:23Z) - Strategic Evaluation: Subjects, Evaluators, and Society [1.1606619391009658]
評価自体の設計は、評価者の持つ目標をさらに進めるものとして理解することができると論じる。
3つの相互作用エージェントを用いた評価のプロセスを表現するモデルを提案した。
評価者をその戦略として扱うことで、意思決定対象に向けられた精査を再放送することができます。
論文 参考訳(メタデータ) (2023-10-05T16:33:08Z) - Evaluating the Social Impact of Generative AI Systems in Systems and
Society [53.936980366906646]
我々は、任意のモダリティに対して生成AIシステムを評価するための標準的なアプローチに向かっている。
基礎技術システムにおいて、人や社会において、特定の社会的影響カテゴリと、どのようにアプローチし、どのように評価を行うかを説明する。
論文 参考訳(メタデータ) (2023-06-09T15:05:13Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文 参考訳(メタデータ) (2020-08-07T10:48:40Z) - Potential Field Guided Actor-Critic Reinforcement Learning [0.30458514384586394]
我々は、報酬に基づく批評家と潜在的フィールドに基づく批評家を組み合わせて、潜在的フィールド誘導型アクター批判強化学習アプローチ(アクター批判-2)を定式化する。
これは、モデルに基づく勾配と、政策改善におけるモデルフリー勾配の組み合わせと見なすことができる。
プレデター・プレイゲームの実験では,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-06-12T03:09:25Z) - Towards Faithfully Interpretable NLP Systems: How should we define and
evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。
解釈可能性とは何か、そして高品質な解釈を構成するものは何か?
我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文 参考訳(メタデータ) (2020-04-07T20:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。