論文の概要: Design and evaluation of AI copilots -- case studies of retail copilot templates
- arxiv url: http://arxiv.org/abs/2407.09512v1
- Date: Mon, 17 Jun 2024 17:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:28:38.464578
- Title: Design and evaluation of AI copilots -- case studies of retail copilot templates
- Title(参考訳): AIコピロットの設計と評価 -- 小売コピロットテンプレートのケーススタディ
- Authors: Michal Furmakiewicz, Chang Liu, Angus Taylor, Ilya Venger,
- Abstract要約: AIのコパイロを成功させるには、体系的なアプローチが必要だ。
本稿では,コピロの設計と評価を2つのセクションに分けた。
- 参考スコア(独自算出の注目度): 2.7274834772504954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building a successful AI copilot requires a systematic approach. This paper is divided into two sections, covering the design and evaluation of a copilot respectively. A case study of developing copilot templates for the retail domain by Microsoft is used to illustrate the role and importance of each aspect. The first section explores the key technical components of a copilot's architecture, including the LLM, plugins for knowledge retrieval and actions, orchestration, system prompts, and responsible AI guardrails. The second section discusses testing and evaluation as a principled way to promote desired outcomes and manage unintended consequences when using AI in a business context. We discuss how to measure and improve its quality and safety, through the lens of an end-to-end human-AI decision loop framework. By providing insights into the anatomy of a copilot and the critical aspects of testing and evaluation, this paper provides concrete evidence of how good design and evaluation practices are essential for building effective, human-centered AI assistants.
- Abstract(参考訳): AIのコパイロを成功させるには、体系的なアプローチが必要だ。
本稿では,コピロの設計と評価を2つのセクションに分けた。
Microsoftが小売ドメイン用のコピロテンプレートを開発するケーススタディは、それぞれの側面の役割と重要性を説明するために使用される。
最初のセクションでは、LLM、知識検索とアクションのためのプラグイン、オーケストレーション、システムプロンプト、責任あるAIガードレールなど、コピロのアーキテクチャの重要な技術コンポーネントについて検討している。
第2節では、ビジネスコンテキストでAIを使用する場合、望ましい結果を促進し、意図しない結果を管理するための原則として、テストと評価について論じている。
我々は、エンドツーエンドのヒューマンAI決定ループフレームワークのレンズを通して、品質と安全性を計測し、改善する方法について議論する。
本稿では,コピロの解剖学とテストと評価の重要側面を考察することにより,人間中心のAIアシスタントを構築する上で,優れた設計と評価の実践がいかに重要であるかを示す具体的な証拠を提供する。
関連論文リスト
- Coverage-Constrained Human-AI Cooperation with Multiple Experts [21.247853435529446]
本稿では,CL2DC法(Coverage-Constrained Learning to Defer and Complement with Specific Experts)を提案する。
CL2DCは、AI予測単独または特定の専門家に延期または補完することで、最終的な決定を行う。
最先端のHAI-CC法に比べて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-18T19:06:01Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - Healthcare Copilot: Eliciting the Power of General LLMs for Medical
Consultation [96.22329536480976]
医療相談用に設計された医療コパイロットの構築について紹介する。
提案した医療コパイロットは,(1)効果的で安全な患者との対話に責任を負う対話コンポーネント,2)現在の会話データと過去の患者情報の両方を記憶する記憶コンポーネント,3)処理コンポーネント,そして,対話全体を要約し,報告を生成する。
提案したヘルスケア・コパイロットを評価するために,ChatGPT を用いた仮想患者とコーピロとの対話を行う仮想患者と,対話の質を評価するための評価器の2つの役割を自動評価する手法を実装した。
論文 参考訳(メタデータ) (2024-02-20T22:26:35Z) - PADTHAI-MM: A Principled Approach for Designing Trustable,
Human-centered AI systems using the MAST Methodology [5.38932801848643]
チェックリスト評価システムであるMultisource AI Scorecard Table (MAST)は、AI対応意思決定支援システムの設計と評価におけるこのギャップに対処する。
我々は,MAST手法を用いた信頼性の高い人間中心型AIシステムを設計するための原則的アプローチを提案する。
我々は,MAST誘導設計により信頼感が向上し,MAST基準が性能,プロセス,目的情報と結びつくことを示す。
論文 参考訳(メタデータ) (2024-01-24T23:15:44Z) - Student Mastery or AI Deception? Analyzing ChatGPT's Assessment
Proficiency and Evaluating Detection Strategies [1.633179643849375]
ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。
本研究では,ChatGPTを3つのコースに分けて評価することで,ChatGPTの性能を評価する。
論文 参考訳(メタデータ) (2023-11-27T20:10:13Z) - Unity is Strength: Cross-Task Knowledge Distillation to Improve Code
Review Generation [0.9208007322096533]
本稿では,クロスタスク知識蒸留に基づく新しいディープラーニングアーキテクチャであるdisCOREVを提案する。
提案手法では,コメント生成モデルの微調整をコードリファインメントモデルで指導する。
以上の結果から,本手法はBLEUスコアによって評価されたより良いレビューコメントを生成することが示された。
論文 参考訳(メタデータ) (2023-09-06T21:10:33Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Human-Centered AI for Data Science: A Systematic Approach [48.71756559152512]
HCAI(Human-Centered AI)は、さまざまなヒューマンタスクをサポートするAI技術の設計と実装を目的とした研究活動である。
データサイエンス(DS)に関する一連の研究プロジェクトを使ってHCAIにどのようにアプローチするかをケーススタディとして紹介する。
論文 参考訳(メタデータ) (2021-10-03T21:47:13Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。