論文の概要: Design and evaluation of AI copilots -- case studies of retail copilot templates
- arxiv url: http://arxiv.org/abs/2407.09512v1
- Date: Mon, 17 Jun 2024 17:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-22 13:28:38.464578
- Title: Design and evaluation of AI copilots -- case studies of retail copilot templates
- Title(参考訳): AIコピロットの設計と評価 -- 小売コピロットテンプレートのケーススタディ
- Authors: Michal Furmakiewicz, Chang Liu, Angus Taylor, Ilya Venger,
- Abstract要約: AIのコパイロを成功させるには、体系的なアプローチが必要だ。
本稿では,コピロの設計と評価を2つのセクションに分けた。
- 参考スコア(独自算出の注目度): 2.7274834772504954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building a successful AI copilot requires a systematic approach. This paper is divided into two sections, covering the design and evaluation of a copilot respectively. A case study of developing copilot templates for the retail domain by Microsoft is used to illustrate the role and importance of each aspect. The first section explores the key technical components of a copilot's architecture, including the LLM, plugins for knowledge retrieval and actions, orchestration, system prompts, and responsible AI guardrails. The second section discusses testing and evaluation as a principled way to promote desired outcomes and manage unintended consequences when using AI in a business context. We discuss how to measure and improve its quality and safety, through the lens of an end-to-end human-AI decision loop framework. By providing insights into the anatomy of a copilot and the critical aspects of testing and evaluation, this paper provides concrete evidence of how good design and evaluation practices are essential for building effective, human-centered AI assistants.
- Abstract(参考訳): AIのコパイロを成功させるには、体系的なアプローチが必要だ。
本稿では,コピロの設計と評価を2つのセクションに分けた。
Microsoftが小売ドメイン用のコピロテンプレートを開発するケーススタディは、それぞれの側面の役割と重要性を説明するために使用される。
最初のセクションでは、LLM、知識検索とアクションのためのプラグイン、オーケストレーション、システムプロンプト、責任あるAIガードレールなど、コピロのアーキテクチャの重要な技術コンポーネントについて検討している。
第2節では、ビジネスコンテキストでAIを使用する場合、望ましい結果を促進し、意図しない結果を管理するための原則として、テストと評価について論じている。
我々は、エンドツーエンドのヒューマンAI決定ループフレームワークのレンズを通して、品質と安全性を計測し、改善する方法について議論する。
本稿では,コピロの解剖学とテストと評価の重要側面を考察することにより,人間中心のAIアシスタントを構築する上で,優れた設計と評価の実践がいかに重要であるかを示す具体的な証拠を提供する。
関連論文リスト
- A Human Centric Requirements Engineering Framework for Assessing Github Copilot Output [0.0]
GitHub Copilotは、これらのソフトウェアツールがヒューマンニーズにどう対処するかという、新たな課題を紹介している。
チャットインターフェースを通じて、GitHub Copilotのユーザとのインタラクションを分析しました。
これらの品質を評価するための明確なメトリクスを備えた、人間中心の要件フレームワークを確立しました。
論文 参考訳(メタデータ) (2025-08-05T21:33:23Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。
最初の大規模人間実験(N=118)を行い,その測定を行った。
2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文 参考訳(メタデータ) (2025-06-05T20:48:16Z) - From Coders to Critics: Empowering Students through Peer Assessment in the Age of AI Copilots [3.3094795918443634]
本稿では,大規模プログラミングコースで実装されたルーリックベースで匿名化されたピアレビュープロセスについて,実証的研究を行う。
学生同士の最終プロジェクト(2Dゲーム)を評価し,その評価を,相関,平均絶対誤差,根平均二乗誤差(RMSE)を用いたインストラクターの成績と比較した。
その結果、ピアレビューは、インストラクターの評価を適度な精度で近似し、学生のエンゲージメント、評価的思考、そして仲間に良いフィードバックを提供することへの関心を高めることができた。
論文 参考訳(メタデータ) (2025-05-28T08:17:05Z) - Modeling and Optimizing User Preferences in AI Copilots: A Comprehensive Survey and Taxonomy [5.985777189633703]
AIコパイロは、複雑でコンテキストに富んだタスクでユーザを支援するように設計された、AI駆動システムの新世代を表す。
このパーソナライゼーションの中心は、好みの最適化である。システムの個々のユーザの好みを検出し、解釈し、調整する能力である。
この調査は、AIコパイロにおけるユーザの嗜好がどのように運用されているかを調べる。
論文 参考訳(メタデータ) (2025-05-28T02:52:39Z) - ReCopilot: Reverse Engineering Copilot in Binary Analysis [7.589188903601179]
汎用大規模言語モデル(LLM)は、ソースコードのプログラミング解析においてよく機能する。
本稿では、バイナリ解析タスク用に設計された専門家LLMであるReCopilotを紹介する。
ReCopilotは、綿密に構築されたデータセットを通じてバイナリコードの知識を統合する。
論文 参考訳(メタデータ) (2025-05-22T08:21:39Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - A Comprehensive Evaluation of Four End-to-End AI Autopilots Using CCTest and the Carla Leaderboard [6.229766691427486]
自動運転システムのためのエンドツーエンドのAIオートパイロットは、従来のモジュラーオートパイロットに代わる有望な選択肢として登場した。
彼らは、非決定性、非説明可能性、異常など、AIシステムのよく知られた問題に悩まされている。
本稿では,4つのオープンなモジュールオートパイロットに適用されたクリティカルな構成テスト手法について検討する。
論文 参考訳(メタデータ) (2025-01-21T12:33:32Z) - Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective [77.94874338927492]
OpenAIは、o1の背後にある主要な技術は強化学習であると主張している。
本稿では、強化学習の観点から、o1を達成するためのロードマップを分析する。
論文 参考訳(メタデータ) (2024-12-18T18:24:47Z) - Coverage-Constrained Human-AI Cooperation with Multiple Experts [21.247853435529446]
本稿では,CL2DC法(Coverage-Constrained Learning to Defer and Complement with Specific Experts)を提案する。
CL2DCは、AI予測単独または特定の専門家に延期または補完することで、最終的な決定を行う。
最先端のHAI-CC法に比べて優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-11-18T19:06:01Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する
AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。
本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-21T08:29:42Z) - Healthcare Copilot: Eliciting the Power of General LLMs for Medical
Consultation [96.22329536480976]
医療相談用に設計された医療コパイロットの構築について紹介する。
提案した医療コパイロットは,(1)効果的で安全な患者との対話に責任を負う対話コンポーネント,2)現在の会話データと過去の患者情報の両方を記憶する記憶コンポーネント,3)処理コンポーネント,そして,対話全体を要約し,報告を生成する。
提案したヘルスケア・コパイロットを評価するために,ChatGPT を用いた仮想患者とコーピロとの対話を行う仮想患者と,対話の質を評価するための評価器の2つの役割を自動評価する手法を実装した。
論文 参考訳(メタデータ) (2024-02-20T22:26:35Z) - PADTHAI-MM: A Principled Approach for Designing Trustable,
Human-centered AI systems using the MAST Methodology [5.38932801848643]
チェックリスト評価システムであるMultisource AI Scorecard Table (MAST)は、AI対応意思決定支援システムの設計と評価におけるこのギャップに対処する。
我々は,MAST手法を用いた信頼性の高い人間中心型AIシステムを設計するための原則的アプローチを提案する。
我々は,MAST誘導設計により信頼感が向上し,MAST基準が性能,プロセス,目的情報と結びつくことを示す。
論文 参考訳(メタデータ) (2024-01-24T23:15:44Z) - Student Mastery or AI Deception? Analyzing ChatGPT's Assessment
Proficiency and Evaluating Detection Strategies [1.633179643849375]
ChatGPTのような生成AIシステムは、学習と評価に破壊的な影響を及ぼす。
本研究では,ChatGPTを3つのコースに分けて評価することで,ChatGPTの性能を評価する。
論文 参考訳(メタデータ) (2023-11-27T20:10:13Z) - Unity is Strength: Cross-Task Knowledge Distillation to Improve Code
Review Generation [0.9208007322096533]
本稿では,クロスタスク知識蒸留に基づく新しいディープラーニングアーキテクチャであるdisCOREVを提案する。
提案手法では,コメント生成モデルの微調整をコードリファインメントモデルで指導する。
以上の結果から,本手法はBLEUスコアによって評価されたより良いレビューコメントを生成することが示された。
論文 参考訳(メタデータ) (2023-09-06T21:10:33Z) - Learning Action-Effect Dynamics for Hypothetical Vision-Language
Reasoning Task [50.72283841720014]
本研究では,行動の効果に関する推論を改善する新しい学習戦略を提案する。
本稿では,提案手法の有効性を実証し,性能,データ効率,一般化能力の観点から,従来のベースラインに対する優位性を論じる。
論文 参考訳(メタデータ) (2022-12-07T05:41:58Z) - Human-Centered AI for Data Science: A Systematic Approach [48.71756559152512]
HCAI(Human-Centered AI)は、さまざまなヒューマンタスクをサポートするAI技術の設計と実装を目的とした研究活動である。
データサイエンス(DS)に関する一連の研究プロジェクトを使ってHCAIにどのようにアプローチするかをケーススタディとして紹介する。
論文 参考訳(メタデータ) (2021-10-03T21:47:13Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。