論文の概要: Evaluation for Change
- arxiv url: http://arxiv.org/abs/2212.11670v1
- Date: Tue, 20 Dec 2022 17:49:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 13:41:37.170583
- Title: Evaluation for Change
- Title(参考訳): 変化の評価
- Authors: Rishi Bommasani
- Abstract要約: 評価はそれ以上であるべきだ、と私たちは主張する。
NLPの現在の軌道は、評価のパワーが低下していることを示唆している。
- 参考スコア(独自算出の注目度): 8.818311905218225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is the central means for assessing, understanding, and
communicating about NLP models. In this position paper, we argue evaluation
should be more than that: it is a force for driving change, carrying a
sociological and political character beyond its technical dimensions. As a
force, evaluation's power arises from its adoption: under our view, evaluation
succeeds when it achieves the desired change in the field. Further, by framing
evaluation as a force, we consider how it competes with other forces. Under our
analysis, we conjecture that the current trajectory of NLP suggests
evaluation's power is waning, in spite of its potential for realizing more
pluralistic ambitions in the field. We conclude by discussing the legitimacy of
this power, who acquires this power and how it distributes. Ultimately, we hope
the research community will more aggressively harness evaluation for change.
- Abstract(参考訳): 評価は、nlpモデルの評価、理解、およびコミュニケーションの中心的な手段である。
本論文では,その技術的側面を超えて社会学的・政治的性格を担いながら,変革を推進するための力である,という以上の評価が必要であると論じる。
力として、評価の力はその採用から生じ、我々の見解では、評価はフィールドの望ましい変化を達成するときに成功する。
さらに,評価を力としてフレーミングすることで,他の力とどのように競合するかを検討する。
解析では,NLPの現在の軌道は,この分野におけるより多元的な野心を実現する可能性にもかかわらず,評価のパワーが低下していることを示唆している。
我々は、この権力の正当性を議論し、誰がこの権力を獲得し、どのように分配するかを論じる。
最終的には、研究コミュニティが変化に対する評価をより積極的に活用することを期待しています。
関連論文リスト
- Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Evaluatology: The Science and Engineering of Evaluation [11.997673313601423]
本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。
本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-19T13:38:26Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony
and Sarcasm Generation [16.591822946975547]
より難解な言語の生成は、選択した評価器パネルの特性が最重要となるサブドメインを構成すると論じる。
本研究は,NLGにおける最近の研究を批判的に調査し,本サブドメインにおける評価方法の評価を行った。
評価対象の人口統計情報の公開報告の欠如や、採用のためのクラウドソーシングプラットフォームに大きく依存していることに留意する。
論文 参考訳(メタデータ) (2023-11-09T17:50:23Z) - Strategic Evaluation: Subjects, Evaluators, and Society [1.1606619391009658]
評価自体の設計は、評価者の持つ目標をさらに進めるものとして理解することができると論じる。
3つの相互作用エージェントを用いた評価のプロセスを表現するモデルを提案した。
評価者をその戦略として扱うことで、意思決定対象に向けられた精査を再放送することができます。
論文 参考訳(メタデータ) (2023-10-05T16:33:08Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Perception Score, A Learned Metric for Open-ended Text Generation
Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。
本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文 参考訳(メタデータ) (2020-08-07T10:48:40Z) - Potential Field Guided Actor-Critic Reinforcement Learning [0.30458514384586394]
我々は、報酬に基づく批評家と潜在的フィールドに基づく批評家を組み合わせて、潜在的フィールド誘導型アクター批判強化学習アプローチ(アクター批判-2)を定式化する。
これは、モデルに基づく勾配と、政策改善におけるモデルフリー勾配の組み合わせと見なすことができる。
プレデター・プレイゲームの実験では,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-06-12T03:09:25Z) - Towards Faithfully Interpretable NLP Systems: How should we define and
evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。
解釈可能性とは何か、そして高品質な解釈を構成するものは何か?
我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文 参考訳(メタデータ) (2020-04-07T20:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。