論文の概要: Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks
- arxiv url: http://arxiv.org/abs/2405.10632v3
- Date: Mon, 27 May 2024 12:09:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 03:28:24.858269
- Title: Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks
- Title(参考訳): 静的AI評価を超えて: LLMの害とリスクに対する人間のインタラクション評価を前進させる
- Authors: Lujain Ibrahim, Saffron Huang, Lama Ahmad, Markus Anderljung,
- Abstract要約: ヒューマンインタラクション評価」は、人間-モデルインタラクションの評価に焦点を当てている。
安全に焦点を当てた3段階のHIE設計フレームワークを提案する。
我々は,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告で締めくくっている。
- 参考スコア(独自算出の注目度): 1.3309842610191835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model evaluations are central to understanding the safety, risks, and societal impacts of AI systems. While most real-world AI applications involve human-AI interaction, most current evaluations (e.g., common benchmarks) of AI models do not. Instead, they incorporate human factors in limited ways, assessing the safety of models in isolation, thereby falling short of capturing the complexity of human-model interactions. In this paper, we discuss and operationalize a definition of an emerging category of evaluations -- "human interaction evaluations" (HIEs) -- which focus on the assessment of human-model interactions or the process and the outcomes of humans using models. First, we argue that HIEs can be used to increase the validity of safety evaluations, assess direct human impact and interaction-specific harms, and guide future assessments of models' societal impact. Second, we propose a safety-focused HIE design framework -- containing a human-LLM interaction taxonomy -- with three stages: (1) identifying the risk or harm area, (2) characterizing the use context, and (3) choosing the evaluation parameters. Third, we apply our framework to two potential evaluations for overreliance and persuasion risks. Finally, we conclude with tangible recommendations for addressing concerns over costs, replicability, and unrepresentativeness of HIEs.
- Abstract(参考訳): モデル評価は、AIシステムの安全性、リスク、社会的影響を理解する上で重要である。
ほとんどの実世界のAIアプリケーションは人間とAIのインタラクションを含んでいるが、AIモデルの現在の評価(例えば、一般的なベンチマーク)はそうではない。
その代わりに、人間的要因を限定的に組み込んで、モデルの安全性を個別に評価することで、人間とモデルの相互作用の複雑さを捉えることができない。
本稿では,人-モデルインタラクションの評価や,モデルを用いた人-モデルインタラクションのプロセスと結果に焦点をあてた,新たな評価カテゴリ"ヒューマンインタラクション評価" (HIEs) の定義と運用について論じる。
まず、HIEは安全性評価の妥当性を高め、直接人的影響と相互作用特異的害を評価し、モデルによる社会的影響の今後の評価を導くために使用できると論じる。
第2に,安全性を重視したHIE設計フレームワーク(人-LLM相互作用分類を含む)について,(1)危険領域の同定,(2)使用状況の特徴付け,(3)評価パラメータの選択の3段階について提案する。
第3に、過信と説得リスクの2つの潜在的評価に我々の枠組みを適用します。
最後に,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告を述べる。
関連論文リスト
- ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - Towards Objective Evaluation of Socially-Situated Conversational Robots:
Assessing Human-Likeness through Multimodal User Behaviors [26.003947740875482]
本稿では,ロボットの人間的類似度を主評価指標として評価することに焦点を当てた。
本研究の目的は,観察可能なユーザ行動に基づいてロボットの人間性を評価することであり,客観性と客観性を高めることである。
論文 参考訳(メタデータ) (2023-08-21T20:21:07Z) - Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。
ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。
より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文 参考訳(メタデータ) (2022-12-19T18:59:45Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。