Fugu-MT 論文翻訳(概要): Evaluation for Change

論文の概要: Evaluation for Change

arxiv url: http://arxiv.org/abs/2212.11670v1
Date: Tue, 20 Dec 2022 17:49:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-23 13:41:37.170583
Title: Evaluation for Change
Title（参考訳）: 変化の評価
Authors: Rishi Bommasani
Abstract要約: 評価はそれ以上であるべきだ、と私たちは主張する。 NLPの現在の軌道は、評価のパワーが低下していることを示唆している。
参考スコア（独自算出の注目度）: 8.818311905218225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluation is the central means for assessing, understanding, and communicating about NLP models. In this position paper, we argue evaluation should be more than that: it is a force for driving change, carrying a sociological and political character beyond its technical dimensions. As a force, evaluation's power arises from its adoption: under our view, evaluation succeeds when it achieves the desired change in the field. Further, by framing evaluation as a force, we consider how it competes with other forces. Under our analysis, we conjecture that the current trajectory of NLP suggests evaluation's power is waning, in spite of its potential for realizing more pluralistic ambitions in the field. We conclude by discussing the legitimacy of this power, who acquires this power and how it distributes. Ultimately, we hope the research community will more aggressively harness evaluation for change.
Abstract（参考訳）: 評価は、nlpモデルの評価、理解、およびコミュニケーションの中心的な手段である。本論文では,その技術的側面を超えて社会学的・政治的性格を担いながら,変革を推進するための力である,という以上の評価が必要であると論じる。力として、評価の力はその採用から生じ、我々の見解では、評価はフィールドの望ましい変化を達成するときに成功する。さらに,評価を力としてフレーミングすることで,他の力とどのように競合するかを検討する。解析では,NLPの現在の軌道は,この分野におけるより多元的な野心を実現する可能性にもかかわらず,評価のパワーが低下していることを示唆している。我々は、この権力の正当性を議論し、誰がこの権力を獲得し、どのように分配するかを論じる。最終的には、研究コミュニティが変化に対する評価をより積極的に活用することを期待しています。

関連論文リスト

Think Again! The Effect of Test-Time Compute on Preferences, Opinions, and Beliefs of Large Language Models [6.9347404883379316]
大規模言語モデル(LLM)は、ますます人間の生活に統合され、意思決定に影響を及ぼしている。主観的嗜好、意見、信念をどの程度、どの程度提示するかを評価することが不可欠である。本稿では、社会的、文化的、倫理的、個人的領域にまたがるLLMの主観的傾向を評価するために、POB(Preference, Opinion, and Belief Survey)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:41:21Z)
DOLCE: Decomposing Off-Policy Evaluation/Learning into Lagged and Current Effects [0.0]
オフ政治評価(OPE)とオフ政治学習(OPL)は、歴史的データを利用して対象の政策を評価し最適化する。複数の時間点からの文脈情報を利用して、報酬をラグと現在の効果に分解する新しい推定器であるラグとカレントエフェクトに非政治評価/学習を分解するDOLCEを提案する。実験の結果,DOLCE は OPE と OPL の大幅な改善を実現していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-02T02:32:28Z)
Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからきめ細かいアスペクトを抽出するデータ駆動型スキーマを開発した。我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文参考訳（メタデータ） (2025-04-09T14:14:42Z)
Mind the Blind Spots: A Focus-Level Evaluation Framework for LLM Reviews [46.0003776499898]
大きな言語モデル(LLM)は、レビューを自動的にドラフトできる。 LLM生成レビューが信頼できるかどうかを決定するには、体系的な評価が必要である。注意の正規分布として焦点を運用する焦点レベル評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-02-24T12:05:27Z)
Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文参考訳（メタデータ） (2024-09-07T02:07:22Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Evaluatology: The Science and Engineering of Evaluation [11.997673313601423]
本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
論文参考訳（メタデータ） (2024-03-19T13:38:26Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony and Sarcasm Generation [16.591822946975547]
より難解な言語の生成は、選択した評価器パネルの特性が最重要となるサブドメインを構成すると論じる。本研究は,NLGにおける最近の研究を批判的に調査し,本サブドメインにおける評価方法の評価を行った。評価対象の人口統計情報の公開報告の欠如や、採用のためのクラウドソーシングプラットフォームに大きく依存していることに留意する。
論文参考訳（メタデータ） (2023-11-09T17:50:23Z)
Strategic Evaluation: Subjects, Evaluators, and Society [1.1606619391009658]
評価自体の設計は、評価者の持つ目標をさらに進めるものとして理解することができると論じる。 3つの相互作用エージェントを用いた評価のプロセスを表現するモデルを提案した。評価者をその戦略として扱うことで、意思決定対象に向けられた精査を再放送することができます。
論文参考訳（メタデータ） (2023-10-05T16:33:08Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-02T19:41:47Z)
Perception Score, A Learned Metric for Open-ended Text Generation Evaluation [62.7690450616204]
本稿では,新しい,強力な学習ベース評価尺度を提案する。本手法は,単語の重なり合いなどの評価基準にのみ焦点をあてるのではなく,生成の全体的な品質を測定し,一律に得点する。
論文参考訳（メタデータ） (2020-08-07T10:48:40Z)
Potential Field Guided Actor-Critic Reinforcement Learning [0.30458514384586394]
我々は、報酬に基づく批評家と潜在的フィールドに基づく批評家を組み合わせて、潜在的フィールド誘導型アクター批判強化学習アプローチ(アクター批判-2)を定式化する。これは、モデルに基づく勾配と、政策改善におけるモデルフリー勾配の組み合わせと見なすことができる。プレデター・プレイゲームの実験では,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-06-12T03:09:25Z)
Towards Faithfully Interpretable NLP Systems: How should we define and evaluate faithfulness? [58.13152510843004]
ディープラーニングベースのNLPモデルの普及に伴い、解釈可能なシステムの必要性が高まっている。解釈可能性とは何か、そして高品質な解釈を構成するものは何か? 我々は、解釈が満たすべき異なる望ましい基準をより明確に区別し、忠実度基準に焦点を合わせることを求めている。
論文参考訳（メタデータ） (2020-04-07T20:15:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。