Fugu-MT 論文翻訳(概要): Rethinking Model Evaluation as Narrowing the Socio-Technical Gap

論文の概要: Rethinking Model Evaluation as Narrowing the Socio-Technical Gap

arxiv url: http://arxiv.org/abs/2306.03100v3
Date: Thu, 29 Jun 2023 02:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-30 10:19:59.723779
Title: Rethinking Model Evaluation as Narrowing the Socio-Technical Gap
Title（参考訳）: 社会技術的ギャップを狭めるモデル評価の再検討
Authors: Q. Vera Liao, Ziang Xiao
Abstract要約: モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。我々は,現実世界の社会要求に基づく評価手法の開発をコミュニティに促す。
参考スコア（独自算出の注目度）: 34.08410116336628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The recent development of generative and large language models (LLMs) poses new challenges for model evaluation that the research community and industry are grappling with. While the versatile capabilities of these models ignite excitement, they also inevitably make a leap toward homogenization: powering a wide range of applications with a single, often referred to as ``general-purpose'', model. In this position paper, we argue that model evaluation practices must take on a critical task to cope with the challenges and responsibilities brought by this homogenization: providing valid assessments for whether and how much human needs in downstream use cases can be satisfied by the given model (socio-technical gap). By drawing on lessons from the social sciences, human-computer interaction (HCI), and the interdisciplinary field of explainable AI (XAI), we urge the community to develop evaluation methods based on real-world socio-requirements and embrace diverse evaluation methods with an acknowledgment of trade-offs between realism to socio-requirements and pragmatic costs to conduct the evaluation. By mapping HCI and current NLG evaluation methods, we identify opportunities for evaluation methods for LLMs to narrow the socio-technical gap and pose open questions.
Abstract（参考訳）: 最近のジェネレーティブ言語モデル(llm)の開発は、研究コミュニティや業界が取り組んでいるモデル評価に新たな挑戦をもたらしている。これらのモデルの汎用性は興奮を喚起する一方で、必然的に均質化へと跳躍する。本稿では,この均質化によってもたらされる課題と責任に対処するためには,モデル評価の実践が重要な課題を担わなければならないことを論じる。社会科学、ヒューマン・コンピュータ・インタラクション(HCI)、説明可能なAI(XAI)の学際的な分野から教訓を得て、実世界の社会要求に基づく評価手法の開発をコミュニティに促し、現実主義から社会要求へのトレードオフと実用的コストの認識による多様な評価手法を取り入れて評価を行う。 HCI と現在の NLG 評価手法をマッピングすることにより,社会技術的ギャップを狭くし,オープンな疑問を呈する LLM の評価手法を提案する。

関連論文リスト

Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models [28.743404185915697]
本稿では,Large Language Models (LLMs) における態度, 意見, 価値 (AOVs) の評価に関する最近の研究の概要について概説する。これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
論文参考訳（メタデータ） (2024-06-16T22:59:18Z)
Collective Constitutional AI: Aligning a Language Model with Public Input [20.95333081841239]
言語モデル(LM)開発者は、LMの振る舞いの唯一の決定者であってはならないというコンセンサスが高まっている。我々は、公共のインプットをLMにソーシングし、統合するための多段階プロセスであるCCAI(Collective Constitutional AI)を提示する。我々は、この手法の現実的な実践性を、我々の知識に則って、公開入力を集約した最初のLM微調整を作成することによって実証する。
論文参考訳（メタデータ） (2024-06-12T02:20:46Z)
Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文参考訳（メタデータ） (2024-02-15T11:08:10Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文参考訳（メタデータ） (2023-11-03T17:24:50Z)
Collaborative Evaluation: Exploring the Synergy of Large Language Models and Humans for Open-ended Generation Evaluation [71.76872586182981]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。本稿では,タスク固有の基準のチェックリストとテキストの詳細な評価を含む協調評価パイプラインCoEvalを提案する。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文参考訳（メタデータ） (2023-09-24T15:34:56Z)
Training Socially Aligned Language Models on Simulated Social Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-05-26T14:17:36Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Human Factors in Model Interpretability: Industry Practices, Challenges, and Needs [28.645803845464915]
モデルを計画し、構築し、使用しながら、解釈可能性のためにどのように考え、設計するかを理解するために、業界実践者とのインタビューを行います。この結果に基づいて、MLモデルを多用する組織内に存在する、解釈可能性の役割、プロセス、目標、戦略を区別する。本分析から得られた解釈可能性作業の特徴は、モデル解釈可能性はしばしば、異なる役割の人物間の協調と精神モデルの比較を伴っていることを示唆している。
論文参考訳（メタデータ） (2020-04-23T19:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。