論文の概要: Engineering AI Judge Systems
- arxiv url: http://arxiv.org/abs/2411.17793v1
- Date: Tue, 26 Nov 2024 17:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:39.365590
- Title: Engineering AI Judge Systems
- Title(参考訳): エンジニアリングAIジャッジシステム
- Authors: Jiahuei Lin, Dayi Lin, Sky Zhang, Ahmed E. Hassan,
- Abstract要約: FMwareのAI判断システム開発における産業経験に基づく課題について論じる。
これらの課題は、かなりの時間消費、コスト、不正確な判断につながる。
高品質なAI判断システムを開発する際の生産性向上を目的として,課題に対処する枠組みを提案する。
- 参考スコア(独自算出の注目度): 7.9305396510475195
- License:
- Abstract: AI judge systems are designed to automatically evaluate Foundation Model-powered software (i.e., FMware). Due to the intrinsic dynamic and stochastic nature of FMware, the development of AI judge systems requires a unique engineering life cycle and presents new challenges. In this paper, we discuss the challenges based on our industrial experiences in developing AI judge systems for FMware. These challenges lead to substantial time consumption, cost and inaccurate judgments. We propose a framework that tackles the challenges with the goal of improving the productivity of developing high-quality AI judge systems. Finally, we evaluate our framework with a case study on judging a commit message generation FMware. The accuracy of the judgments made by the AI judge system developed with our framework outperforms those made by the AI judge system that is developed without our framework by up to 6.2%, with a significant reduction in development effort.
- Abstract(参考訳): AIジャッジシステムは、ファンデーションモデル駆動ソフトウェア(FMware)を自動評価するように設計されている。
FMwareの本質的な動的・確率的な性質のため、AI判断システムの開発には独自のエンジニアリングライフサイクルが必要となり、新たな課題が提示される。
本稿では,FMware用AIジャッジシステムの開発における産業経験に基づく課題について論じる。
これらの課題は、かなりの時間消費、コスト、不正確な判断につながる。
本稿では,高品質なAI判断システムを開発する際の生産性向上を目標として,課題に対処するフレームワークを提案する。
最後に,このフレームワークを,コミットメッセージ生成用FMウェアを判定するケーススタディで評価する。
我々のフレームワークで開発されたAIジャッジシステムによる判断の精度は、我々のフレームワークなしで開発されたAIジャッジシステムよりも6.2%優れており、開発努力の大幅な削減が図られている。
関連論文リスト
- Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Ensuring Fairness with Transparent Auditing of Quantitative Bias in AI Systems [0.30693357740321775]
AIシステムは、意思決定者が不公平な結論を導くバイアスを示す可能性がある。
本稿では,サードパーティの監査官やAIシステムプロバイダによるAIフェアネスの監査を行うフレームワークを提案する。
我々は,AIシステムの体系的な検査を容易にするツールを開発した。
論文 参考訳(メタデータ) (2024-08-24T17:16:50Z) - Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。
学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。
トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文 参考訳(メタデータ) (2024-07-03T15:38:57Z) - Particip-AI: A Democratic Surveying Framework for Anticipating Future AI Use Cases, Harms and Benefits [54.648819983899614]
汎用AIは、一般大衆がAIを使用してそのパワーを利用するための障壁を下げたようだ。
本稿では,AI利用事例とその影響を推測し,評価するためのフレームワークであるPartICIP-AIを紹介する。
論文 参考訳(メタデータ) (2024-03-21T19:12:37Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - Inherent Limitations of AI Fairness [16.588468396705366]
AIフェアネスの研究は、コンピュータ科学、社会科学、法学、哲学と結びついた豊富な研究分野へと急速に発展してきた。
AIフェアネスの測定と達成のための多くの技術的ソリューションが提案されているが、そのアプローチは近年、誤解を招く、非現実的で有害であるとして批判されている。
論文 参考訳(メタデータ) (2022-12-13T11:23:24Z) - Towards a Roadmap on Software Engineering for Responsible AI [17.46300715928443]
本稿では,責任あるAIのためのソフトウェア工学のロードマップを作成することを目的とする。
ロードマップは、(i)責任AIシステムのためのマルチレベルガバナンスの確立、(ii)責任AIシステムのためのプロセス指向のプラクティスを取り入れた開発プロセスのセットアップ、(iii)システムレベルのアーキテクチャスタイル、パターン、テクニックを通じて責任AIをAIシステムにバイデザインする構築に焦点を当てている。
論文 参考訳(メタデータ) (2022-03-09T07:01:32Z) - Responsible-AI-by-Design: a Pattern Collection for Designing Responsible
AI Systems [12.825892132103236]
責任あるAIのための多くの倫理規定、原則、ガイドラインが最近発行されている。
本稿では、システムレベルのガイダンスとして、責任あるAIシステムのアーキテクチャをどのように設計するかという、欠落した要素を1つ挙げる。
本稿では、AIシステムに組み込んだデザインパターンを製品として紹介し、責任あるAI設計に貢献する。
論文 参考訳(メタデータ) (2022-03-02T07:30:03Z) - An interdisciplinary conceptual study of Artificial Intelligence (AI)
for helping benefit-risk assessment practices: Towards a comprehensive
qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。
目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文 参考訳(メタデータ) (2021-05-07T12:01:31Z) - Quality Management of Machine Learning Systems [0.0]
機械学習(ML)技術の大きな進歩により、人工知能(AI)は私たちの日常生活の一部になっています。
ビジネス/ミッションクリティカルなシステムでは、AIアプリケーションの信頼性と保守性に関する深刻な懸念が残っている。
本稿では,MLアプリケーションのための総合的な品質管理フレームワークの展望について述べる。
論文 参考訳(メタデータ) (2020-06-16T21:34:44Z) - Toward Trustworthy AI Development: Mechanisms for Supporting Verifiable
Claims [59.64274607533249]
AI開発者は、責任を負うことのできる検証可能な主張をする必要がある。
このレポートは、さまざまな利害関係者がAIシステムに関するクレームの妥当性を改善するための様々なステップを示唆している。
我々は、この目的のための10のメカニズム、すなわち、組織、ソフトウェア、ハードウェアを分析し、それらのメカニズムの実装、探索、改善を目的とした推奨を行う。
論文 参考訳(メタデータ) (2020-04-15T17:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。