論文の概要: Evaluating Human-AI Collaboration: A Review and Methodological Framework
- arxiv url: http://arxiv.org/abs/2407.19098v1
- Date: Tue, 9 Jul 2024 12:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 00:56:24.535635
- Title: Evaluating Human-AI Collaboration: A Review and Methodological Framework
- Title(参考訳): 人間とAIのコラボレーションを評価する: レビューと方法論の枠組み
- Authors: George Fragiadakis, Christos Diou, George Kousiouris, Mara Nikolaidou,
- Abstract要約: 人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。
HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
- 参考スコア(独自算出の注目度): 4.41358655687435
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of artificial intelligence (AI) in working environments with individuals, known as Human-AI Collaboration (HAIC), has become essential in a variety of domains, boosting decision-making, efficiency, and innovation. Despite HAIC's wide potential, evaluating its effectiveness remains challenging due to the complex interaction of components involved. This paper provides a detailed analysis of existing HAIC evaluation approaches and develops a fresh paradigm for more effectively evaluating these systems. Our framework includes a structured decision tree which assists to select relevant metrics based on distinct HAIC modes (AI-Centric, Human-Centric, and Symbiotic). By including both quantitative and qualitative metrics, the framework seeks to represent HAIC's dynamic and reciprocal nature, enabling the assessment of its impact and success. This framework's practicality can be examined by its application in an array of domains, including manufacturing, healthcare, finance, and education, each of which has unique challenges and requirements. Our hope is that this study will facilitate further research on the systematic evaluation of HAIC in real-world applications.
- Abstract(参考訳): Human-AI Collaboration (HAIC)として知られる個人との作業環境における人工知能(AI)の利用は、さまざまな領域において不可欠となり、意思決定、効率、革新が促進されている。
HAICの幅広い可能性にもかかわらず、その有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。
本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
我々のフレームワークには、異なるHAICモード(AI-Centric, Human-Centric, Symbiotic)に基づいて関連するメトリクスを選択するための構造化決定木が含まれている。
量的および質的な指標の両方を含めることで、このフレームワークはHAICの動的かつ相互の性質を表現し、その影響と成功の評価を可能にしようとしている。
このフレームワークの実用性は、製造業、医療、金融、教育など様々な分野に適用することで検証することができる。
本研究は,現実の応用におけるHAICの体系的評価のさらなる研究を促進することを願っている。
関連論文リスト
- Cooperative Resilience in Artificial Intelligence Multiagent Systems [2.0608564715600273]
本稿では, 協調レジリエンスの明確な定義とその定量化手法を提案する。
その結果は、集団システムが破壊に直面してどのように準備し、抵抗し、回復し、幸福を維持し、変革するかを分析する上で、レジリエンス指標の重要な役割を強調している。
論文 参考訳(メタデータ) (2024-09-20T03:28:48Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Exploring the Potential of Human-LLM Synergy in Advancing Qualitative Analysis: A Case Study on Mental-Illness Stigma [6.593116883521213]
大規模言語モデル(LLM)は、既存のスキーム内で定性的なコーディングを行うことができるが、協調的な人間-LLM発見の可能性はまだ探索されていない。
我々は,人間とLLMの協調パラダイムを活用して,概念化を促進し,質的研究を促進する新しい手法であるCHALETを提案する。
論文 参考訳(メタデータ) (2024-05-09T13:27:22Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Confounding-Robust Policy Improvement with Human-AI Teams [9.823906892919746]
限界感度モデル(MSM)を用いて,人間とAIの協調作業における非観測的コンバウンディングに対処する新しい手法を提案する。
このアプローチでは、ドメインの専門知識とAI駆動の統計モデルを組み合わせることで、他の方法では隠される可能性がある共同ファウンダーの可能性を考慮しています。
論文 参考訳(メタデータ) (2023-10-13T02:39:52Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Intrinsic Motivation in Model-based Reinforcement Learning: A Brief
Review [77.34726150561087]
本稿では,エージェントが獲得した世界モデルに基づいて,本質的な動機付けを決定するための既存の手法について考察する。
提案した統合フレームワークは,学習を改善するために,世界モデルと本質的なモチベーションを用いてエージェントのアーキテクチャを記述する。
論文 参考訳(メタデータ) (2023-01-24T15:13:02Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。