論文の概要: Design and evaluation of AI copilots -- case studies of retail copilot templates
- arxiv url: http://arxiv.org/abs/2407.09512v1
- Date: Mon, 17 Jun 2024 17:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 13:28:38.464578
- Title: Design and evaluation of AI copilots -- case studies of retail copilot templates
- Title(参考訳): AIコピロットの設計と評価 -- 小売コピロットテンプレートのケーススタディ
- Authors: Michal Furmakiewicz, Chang Liu, Angus Taylor, Ilya Venger,
- Abstract要約: AIのコパイロを成功させるには、体系的なアプローチが必要だ。
本稿では,コピロの設計と評価を2つのセクションに分けた。
- 参考スコア(独自算出の注目度): 2.7274834772504954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building a successful AI copilot requires a systematic approach. This paper is divided into two sections, covering the design and evaluation of a copilot respectively. A case study of developing copilot templates for the retail domain by Microsoft is used to illustrate the role and importance of each aspect. The first section explores the key technical components of a copilot's architecture, including the LLM, plugins for knowledge retrieval and actions, orchestration, system prompts, and responsible AI guardrails. The second section discusses testing and evaluation as a principled way to promote desired outcomes and manage unintended consequences when using AI in a business context. We discuss how to measure and improve its quality and safety, through the lens of an end-to-end human-AI decision loop framework. By providing insights into the anatomy of a copilot and the critical aspects of testing and evaluation, this paper provides concrete evidence of how good design and evaluation practices are essential for building effective, human-centered AI assistants.
- Abstract(参考訳): AIのコパイロを成功させるには、体系的なアプローチが必要だ。
本稿では,コピロの設計と評価を2つのセクションに分けた。
Microsoftが小売ドメイン用のコピロテンプレートを開発するケーススタディは、それぞれの側面の役割と重要性を説明するために使用される。
最初のセクションでは、LLM、知識検索とアクションのためのプラグイン、オーケストレーション、システムプロンプト、責任あるAIガードレールなど、コピロのアーキテクチャの重要な技術コンポーネントについて検討している。
第2節では、ビジネスコンテキストでAIを使用する場合、望ましい結果を促進し、意図しない結果を管理するための原則として、テストと評価について論じている。
我々は、エンドツーエンドのヒューマンAI決定ループフレームワークのレンズを通して、品質と安全性を計測し、改善する方法について議論する。
本稿では,コピロの解剖学とテストと評価の重要側面を考察することにより,人間中心のAIアシスタントを構築する上で,優れた設計と評価の実践がいかに重要であるかを示す具体的な証拠を提供する。
関連論文リスト
- The Role of GitHub Copilot on Software Development: A Perspec-tive on Productivity, Security, Best Practices and Future Directions [0.0]
GitHub Copilotは、タスクの自動化とAI駆動コード生成による生産性向上によって、ソフトウェア開発を変革している。
本稿では,生産性とセキュリティに対するCopilotの影響について考察する。
論文 参考訳(メタデータ) (2025-02-18T18:08:20Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - Subversion Strategy Eval: Evaluating AI's stateless strategic capabilities against control protocols [53.53802315778733]
以前の作業では、AIが人間書きの戦略に従うような、人間とAIのレッドチームでプロトコルを転向させることで、プロトコルを評価していた。
本稿では、プライベートメモリなしで動作しながら制御プロトコルを変換する戦略において、AIシステムがいかにうまく機能するかを検討する。
論文 参考訳(メタデータ) (2024-12-17T02:33:45Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - Healthcare Copilot: Eliciting the Power of General LLMs for Medical
Consultation [96.22329536480976]
医療相談用に設計された医療コパイロットの構築について紹介する。
提案した医療コパイロットは,(1)効果的で安全な患者との対話に責任を負う対話コンポーネント,2)現在の会話データと過去の患者情報の両方を記憶する記憶コンポーネント,3)処理コンポーネント,そして,対話全体を要約し,報告を生成する。
提案したヘルスケア・コパイロットを評価するために,ChatGPT を用いた仮想患者とコーピロとの対話を行う仮想患者と,対話の質を評価するための評価器の2つの役割を自動評価する手法を実装した。
論文 参考訳(メタデータ) (2024-02-20T22:26:35Z) - PADTHAI-MM: Principles-based Approach for Designing Trustworthy, Human-centered AI using MAST Methodology [5.215782336985273]
マルチソースAIスコアカードテーブル(Multisource AI Scorecard Table, MAST)は、AI対応意思決定支援システムを評価するための、体系的かつトレードクラフト中心のアプローチを提供することによって、ギャップを埋めるように設計されている。
我々は,信頼に値する,人間中心のAIを設計するためのテキスト原則に基づくアプローチという,反復的な設計フレームワークを導入する。
我々はこの枠組みを防衛情報タスク報告支援(READIT)の開発において実証する。
論文 参考訳(メタデータ) (2024-01-24T23:15:44Z) - Student Mastery or AI Deception? Analyzing ChatGPT's Assessment
Proficiency and Evaluating Detection Strategies [1.633179643849375]
ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。
本研究では,ChatGPTを3つのコースに分けて評価することで,ChatGPTの性能を評価する。
論文 参考訳(メタデータ) (2023-11-27T20:10:13Z) - Unity is Strength: Cross-Task Knowledge Distillation to Improve Code
Review Generation [0.9208007322096533]
本稿では,クロスタスク知識蒸留に基づく新しいディープラーニングアーキテクチャであるdisCOREVを提案する。
提案手法では,コメント生成モデルの微調整をコードリファインメントモデルで指導する。
以上の結果から,本手法はBLEUスコアによって評価されたより良いレビューコメントを生成することが示された。
論文 参考訳(メタデータ) (2023-09-06T21:10:33Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。