Fugu-MT 論文翻訳(概要): Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks

論文の概要: Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks

arxiv url: http://arxiv.org/abs/2405.10632v3
Date: Mon, 27 May 2024 12:09:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 03:28:24.858269
Title: Beyond static AI evaluations: advancing human interaction evaluations for LLM harms and risks
Title（参考訳）: 静的AI評価を超えて: LLMの害とリスクに対する人間のインタラクション評価を前進させる
Authors: Lujain Ibrahim, Saffron Huang, Lama Ahmad, Markus Anderljung,
Abstract要約: ヒューマンインタラクション評価」は、人間-モデルインタラクションの評価に焦点を当てている。安全に焦点を当てた3段階のHIE設計フレームワークを提案する。我々は,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告で締めくくっている。
参考スコア（独自算出の注目度）: 1.3309842610191835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model evaluations are central to understanding the safety, risks, and societal impacts of AI systems. While most real-world AI applications involve human-AI interaction, most current evaluations (e.g., common benchmarks) of AI models do not. Instead, they incorporate human factors in limited ways, assessing the safety of models in isolation, thereby falling short of capturing the complexity of human-model interactions. In this paper, we discuss and operationalize a definition of an emerging category of evaluations -- "human interaction evaluations" (HIEs) -- which focus on the assessment of human-model interactions or the process and the outcomes of humans using models. First, we argue that HIEs can be used to increase the validity of safety evaluations, assess direct human impact and interaction-specific harms, and guide future assessments of models' societal impact. Second, we propose a safety-focused HIE design framework -- containing a human-LLM interaction taxonomy -- with three stages: (1) identifying the risk or harm area, (2) characterizing the use context, and (3) choosing the evaluation parameters. Third, we apply our framework to two potential evaluations for overreliance and persuasion risks. Finally, we conclude with tangible recommendations for addressing concerns over costs, replicability, and unrepresentativeness of HIEs.
Abstract（参考訳）: モデル評価は、AIシステムの安全性、リスク、社会的影響を理解する上で重要である。ほとんどの実世界のAIアプリケーションは人間とAIのインタラクションを含んでいるが、AIモデルの現在の評価(例えば、一般的なベンチマーク)はそうではない。その代わりに、人間的要因を限定的に組み込んで、モデルの安全性を個別に評価することで、人間とモデルの相互作用の複雑さを捉えることができない。本稿では,人-モデルインタラクションの評価や,モデルを用いた人-モデルインタラクションのプロセスと結果に焦点をあてた,新たな評価カテゴリ"ヒューマンインタラクション評価" (HIEs) の定義と運用について論じる。まず、HIEは安全性評価の妥当性を高め、直接人的影響と相互作用特異的害を評価し、モデルによる社会的影響の今後の評価を導くために使用できると論じる。第2に,安全性を重視したHIE設計フレームワーク(人-LLM相互作用分類を含む)について,(1)危険領域の同定,(2)使用状況の特徴付け,(3)評価パラメータの選択の3段階について提案する。第3に、過信と説得リスクの2つの潜在的評価に我々の枠組みを適用します。最後に,HIEのコスト,複製性,非表現性に関する懸念に対処するための具体的な勧告を述べる。

関連論文リスト

Interaction as Intelligence: Deep Research With Human-AI Partnership [25.28272178646003]
インタラクション・アズ・インテリジェンス」研究シリーズは、深層研究課題における人間とAIの関係の再認識を提示する。 Deep Cognitionは、人間の役割を認知的監視への指示から転換するシステムである。
論文参考訳（メタデータ） (2025-07-21T16:15:18Z)
Confirmation Bias in Generative AI Chatbots: Mechanisms, Risks, Mitigation Strategies, and Future Research Directions [0.0]
本稿では,AIチャットボットの確認バイアスが現れるメカニズムを解析する。このようなバイアスに関連する倫理的・実践的なリスクを評価し、様々な緩和戦略を提案する。この記事では、生成的AIシステムにおける確認バイアスをよりよく理解し、対処するために、学際的なコラボレーションと経験的評価の必要性を強調して、結論付けている。
論文参考訳（メタデータ） (2025-04-12T21:08:36Z)
The Human Robot Social Interaction (HSRI) Dataset: Benchmarking Foundational Models' Social Reasoning [49.32390524168273]
本研究は,実世界のソーシャルインタラクションにおいて,人工知能(AI)エージェントの社会的推論を促進することを目的としている。我々は、言語モデル(LM)と基礎モデル(FM)の能力をベンチマークするために、大規模な実世界のヒューマンロボット社会インタラクション(HSRI)データセットを導入する。私たちのデータセットは、400以上の現実世界の人間のソーシャルロボットインタラクションビデオと10K以上のアノテーションで構成され、ロボットの社会的エラー、能力、合理性、修正行動の詳細を記述しています。
論文参考訳（メタデータ） (2025-04-07T06:27:02Z)
Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文参考訳（メタデータ） (2024-06-13T16:03:25Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
AntEval: Evaluation of Social Interaction Competencies in LLM-Driven Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文参考訳（メタデータ） (2024-01-12T11:18:00Z)
Human-AI collaboration is not very collaborative yet: A taxonomy of interaction patterns in AI-assisted decision making from a systematic review [6.013543974938446]
意思決定支援システムにおける人工知能の活用は、技術的進歩に不相応に焦点を合わせてきた。人間中心の視点は、既存のプロセスとのシームレスな統合のためにAIソリューションを設計することで、この懸念を緩和しようとする。
論文参考訳（メタデータ） (2023-10-30T17:46:38Z)
Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-18T14:13:58Z)
It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-30T20:54:59Z)
Towards Objective Evaluation of Socially-Situated Conversational Robots: Assessing Human-Likeness through Multimodal User Behaviors [26.003947740875482]
本稿では,ロボットの人間的類似度を主評価指標として評価することに焦点を当てた。本研究の目的は,観察可能なユーザ行動に基づいてロボットの人間性を評価することであり,客観性と客観性を高めることである。
論文参考訳（メタデータ） (2023-08-21T20:21:07Z)
Human-AI Coevolution [48.74579595505374]
Coevolution AIは、人間とAIアルゴリズムが相互に連続的に影響を及ぼすプロセスである。本稿では,AIと複雑性科学の交点における新たな研究分野の基盤として,Coevolution AIを紹介した。
論文参考訳（メタデータ） (2023-06-23T18:10:54Z)
Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文参考訳（メタデータ） (2023-05-22T17:18:29Z)
Evaluating Human-Language Model Interaction [79.33022878034627]
我々は,対話型システムのコンポーネントを定義する,HALIE(Human-AI Language-based Interaction Evaluation)という新しいフレームワークを開発した。ソーシャル対話,質問応答,クロスワードパズル,要約,メタファ生成という,対話のさまざまな形態をカバーする5つのタスクを設計する。より優れた非対話的性能は、必ずしもより良い人間とLMの相互作用に必ずしも変換されない。
論文参考訳（メタデータ） (2022-12-19T18:59:45Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文参考訳（メタデータ） (2022-10-28T14:38:50Z)
A Mental-Model Centric Landscape of Human-AI Symbiosis [31.14516396625931]
我々は、GHAI(Generalized Human-Aware Interaction)と呼ばれる、ヒューマン・アウェア・AIインタラクション・スキームの極めて一般的なバージョンを導入する。この新しいフレームワークによって、人間とAIのインタラクションの空間で達成されたさまざまな作業が捕捉され、これらの作業によって支えられる基本的な行動パターンが特定できるかどうかを確認します。
論文参考訳（メタデータ） (2022-02-18T22:08:08Z)
Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。 ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文参考訳（メタデータ） (2021-02-20T03:29:20Z)
Adversarial Interaction Attack: Fooling AI to Misinterpret Human Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文参考訳（メタデータ） (2021-01-17T16:23:20Z)
Human Trajectory Forecasting in Crowds: A Deep Learning Perspective [89.4600982169]
本稿では,既存の深層学習に基づくソーシャルインタラクションのモデル化手法について詳細に分析する。本稿では、これらの社会的相互作用を効果的に捉えるための知識に基づく2つのデータ駆動手法を提案する。我々は,人間の軌道予測分野において,重要かつ欠落したコンポーネントであるTrajNet++を大規模に開発する。
論文参考訳（メタデータ） (2020-07-07T17:19:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。