論文の概要: Rethinking Model Evaluation as Narrowing the Socio-Technical Gap
- arxiv url: http://arxiv.org/abs/2306.03100v1
- Date: Thu, 1 Jun 2023 00:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-11 13:37:03.627685
- Title: Rethinking Model Evaluation as Narrowing the Socio-Technical Gap
- Title(参考訳): 社会技術的ギャップを狭めるモデル評価の再検討
- Authors: Q. Vera Liao, Ziang Xiao
- Abstract要約: モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実世界の社会要求に基づく評価手法を開発し,多様な評価手法を取り入れるようコミュニティに促す。
- 参考スコア(独自算出の注目度): 34.08410116336628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent development of generative and large language models (LLMs) poses
new challenges for model evaluation that the research community and industry
are grappling with. While the versatile capabilities of these models ignite
excitement, they also inevitably make a leap toward homogenization: powering a
wide range of applications with a single, often referred to as
``general-purpose'', model. In this position paper, we argue that model
evaluation practices must take on a critical task to cope with the challenges
and responsibilities brought by this homogenization: providing valid
assessments for whether and how much human needs in downstream use cases can be
satisfied by the given model (\textit{socio-technical gap}). By drawing on
lessons from the social sciences, human-computer interaction (HCI), and the
interdisciplinary field of explainable AI (XAI), we urge the community to
develop evaluation methods based on real-world socio-requirements and embrace
diverse evaluation methods with an acknowledgment of trade-offs between realism
to socio-requirements and pragmatic costs. By mapping HCI and current NLG
evaluation methods, we identify opportunities for new evaluation methods for
LLMs to narrow the socio-technical gap and pose open questions.
- Abstract(参考訳): 最近のジェネレーティブ言語モデル(llm)の開発は、研究コミュニティや業界が取り組んでいるモデル評価に新たな挑戦をもたらしている。
これらのモデルの汎用性は興奮を喚起する一方で、必然的に均質化へと跳躍する。
本稿では、この均質化によってもたらされる課題や責任に対処する上で、モデル評価の実践が重要な課題となることを論じる: 下流のユースケースにおける人間のニーズが、与えられたモデルによってどの程度満足できるかを、有効に評価する(\textit{socio-technical gap})。
社会科学、ヒューマン・コンピュータ・インタラクション(HCI)、説明可能なAI(XAI)の学際的な分野から学ぶことにより、現実の社会要求に基づく評価手法の開発をコミュニティに促し、現実主義と社会要求と実用的コストのトレードオフを認め、多様な評価手法を取り入れるよう促す。
HCI と現在の NLG 評価手法をマッピングすることにより,社会技術的ギャップを狭め,オープンな疑問を呈する LLM の新たな評価手法を提案する。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models [28.743404185915697]
本稿では,Large Language Models (LLMs) における態度, 意見, 価値 (AOVs) の評価に関する最近の研究の概要について概説する。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
論文 参考訳(メタデータ) (2024-06-16T22:59:18Z) - Collective Constitutional AI: Aligning a Language Model with Public Input [20.95333081841239]
言語モデル(LM)開発者は、LMの振る舞いの唯一の決定者であってはならないというコンセンサスが高まっている。
我々は、公共のインプットをLMにソーシングし、統合するための多段階プロセスであるCCAI(Collective Constitutional AI)を提示する。
我々は、この手法の現実的な実践性を、我々の知識に則って、公開入力を集約した最初のLM微調整を作成することによって実証する。
論文 参考訳(メタデータ) (2024-06-12T02:20:46Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Collaborative Evaluation: Exploring the Synergy of Large Language Models
and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。