Fugu-MT 論文翻訳(概要): Engineering AI Judge Systems

論文の概要: Engineering AI Judge Systems

arxiv url: http://arxiv.org/abs/2411.17793v1
Date: Tue, 26 Nov 2024 17:43:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.409045
Title: Engineering AI Judge Systems
Title（参考訳）: エンジニアリングAIジャッジシステム
Authors: Jiahuei Lin, Dayi Lin, Sky Zhang, Ahmed E. Hassan,
Abstract要約: FMwareのAI判断システム開発における産業経験に基づく課題について論じる。これらの課題は、かなりの時間消費、コスト、不正確な判断につながる。高品質なAI判断システムを開発する際の生産性向上を目的として,課題に対処する枠組みを提案する。
参考スコア（独自算出の注目度）: 7.9305396510475195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AI judge systems are designed to automatically evaluate Foundation Model-powered software (i.e., FMware). Due to the intrinsic dynamic and stochastic nature of FMware, the development of AI judge systems requires a unique engineering life cycle and presents new challenges. In this paper, we discuss the challenges based on our industrial experiences in developing AI judge systems for FMware. These challenges lead to substantial time consumption, cost and inaccurate judgments. We propose a framework that tackles the challenges with the goal of improving the productivity of developing high-quality AI judge systems. Finally, we evaluate our framework with a case study on judging a commit message generation FMware. The accuracy of the judgments made by the AI judge system developed with our framework outperforms those made by the AI judge system that is developed without our framework by up to 6.2%, with a significant reduction in development effort.
Abstract（参考訳）: AIジャッジシステムは、ファンデーションモデル駆動ソフトウェア(FMware)を自動評価するように設計されている。 FMwareの本質的な動的・確率的な性質のため、AI判断システムの開発には独自のエンジニアリングライフサイクルが必要となり、新たな課題が提示される。本稿では,FMware用AIジャッジシステムの開発における産業経験に基づく課題について論じる。これらの課題は、かなりの時間消費、コスト、不正確な判断につながる。本稿では,高品質なAI判断システムを開発する際の生産性向上を目標として,課題に対処するフレームワークを提案する。最後に,このフレームワークを,コミットメッセージ生成用FMウェアを判定するケーススタディで評価する。我々のフレームワークで開発されたAIジャッジシステムによる判断の精度は、我々のフレームワークなしで開発されたAIジャッジシステムよりも6.2%優れており、開発努力の大幅な削減が図られている。

関連論文リスト

The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
Rethinking Technological Readiness in the Era of AI Uncertainty [0.0]
私たちは、現在の技術準備性評価は、重要なAI固有の要因を捉えることができないと論じています。軍事システムにおけるAIコンポーネントの成熟度と信頼性を評価するための新しいAI Readiness Frameworkを提案する。
論文参考訳（メタデータ） (2025-04-15T14:09:50Z)
AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文参考訳（メタデータ） (2025-03-04T03:55:38Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文参考訳（メタデータ） (2025-02-10T15:25:06Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Ensuring Fairness with Transparent Auditing of Quantitative Bias in AI Systems [0.30693357740321775]
AIシステムは、意思決定者が不公平な結論を導くバイアスを示す可能性がある。本稿では,サードパーティの監査官やAIシステムプロバイダによるAIフェアネスの監査を行うフレームワークを提案する。我々は,AIシステムの体系的な検査を容易にするツールを開発した。
論文参考訳（メタデータ） (2024-08-24T17:16:50Z)
Combining AI Control Systems and Human Decision Support via Robustness and Criticality [53.10194953873209]
我々は、逆説(AE)の方法論を最先端の強化学習フレームワークに拡張する。学習したAI制御システムは、敵のタンパリングに対する堅牢性を示す。トレーニング/学習フレームワークでは、この技術は人間のインタラクションを通じてAIの決定と説明の両方を改善することができる。
論文参考訳（メタデータ） (2024-07-03T15:38:57Z)
AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文参考訳（メタデータ） (2023-01-08T15:02:38Z)
Inherent Limitations of AI Fairness [16.588468396705366]
AIフェアネスの研究は、コンピュータ科学、社会科学、法学、哲学と結びついた豊富な研究分野へと急速に発展してきた。 AIフェアネスの測定と達成のための多くの技術的ソリューションが提案されているが、そのアプローチは近年、誤解を招く、非現実的で有害であるとして批判されている。
論文参考訳（メタデータ） (2022-12-13T11:23:24Z)
Responsible AI Pattern Catalogue: A Collection of Best Practices for AI Governance and Engineering [20.644494592443245]
MLR(Multivocal Literature Review)の結果に基づく応答性AIパターンカタログを提案する。原則やアルゴリズムのレベルにとどまらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。
論文参考訳（メタデータ） (2022-09-12T00:09:08Z)
Towards a Roadmap on Software Engineering for Responsible AI [17.46300715928443]
本稿では,責任あるAIのためのソフトウェア工学のロードマップを作成することを目的とする。ロードマップは、(i)責任AIシステムのためのマルチレベルガバナンスの確立、(ii)責任AIシステムのためのプロセス指向のプラクティスを取り入れた開発プロセスのセットアップ、(iii)システムレベルのアーキテクチャスタイル、パターン、テクニックを通じて責任AIをAIシステムにバイデザインする構築に焦点を当てている。
論文参考訳（メタデータ） (2022-03-09T07:01:32Z)
Responsible-AI-by-Design: a Pattern Collection for Designing Responsible AI Systems [12.825892132103236]
責任あるAIのための多くの倫理規定、原則、ガイドラインが最近発行されている。本稿では、システムレベルのガイダンスとして、責任あるAIシステムのアーキテクチャをどのように設計するかという、欠落した要素を1つ挙げる。本稿では、AIシステムに組み込んだデザインパターンを製品として紹介し、責任あるAI設計に貢献する。
論文参考訳（メタデータ） (2022-03-02T07:30:03Z)
An interdisciplinary conceptual study of Artificial Intelligence (AI) for helping benefit-risk assessment practices: Towards a comprehensive qualification matrix of AI programs and devices (pre-print 2020) [55.41644538483948]
本稿では,インテリジェンスの概念に対処するさまざまな分野の既存の概念を包括的に分析する。目的は、AIシステムを評価するための共有概念や相違点を特定することである。
論文参考訳（メタデータ） (2021-05-07T12:01:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。