Fugu-MT 論文翻訳(概要): Quality Assurance for Artificial Intelligence: A Study of Industrial Concerns, Challenges and Best Practices

論文の概要: Quality Assurance for Artificial Intelligence: A Study of Industrial Concerns, Challenges and Best Practices

arxiv url: http://arxiv.org/abs/2402.16391v1
Date: Mon, 26 Feb 2024 08:31:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:04:49.554604
Title: Quality Assurance for Artificial Intelligence: A Study of Industrial Concerns, Challenges and Best Practices
Title（参考訳）: 人工知能の品質保証:産業問題,課題,ベストプラクティスに関する研究
Authors: Chenyu Wang, Zhou Yang, Ze Shi Li, Daniela Damian, David Lo
Abstract要約: 我々は,AIシステムの品質保証(QA4AI)の課題とベストプラクティスについて報告する。以上の結果から, 最も重要な特性として正しさが示唆され, モデル関連性, 効率性, 展開性などが示唆された。 AI開発の各段階で、21のQA4AIプラクティスを特定します。
参考スコア（独自算出の注目度）: 14.222404866137756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quality Assurance (QA) aims to prevent mistakes and defects in manufactured products and avoid problems when delivering products or services to customers. QA for AI systems, however, poses particular challenges, given their data-driven and non-deterministic nature as well as more complex architectures and algorithms. While there is growing empirical evidence about practices of machine learning in industrial contexts, little is known about the challenges and best practices of quality assurance for AI systems (QA4AI). In this paper, we report on a mixed-method study of QA4AI in industry practice from various countries and companies. Through interviews with fifteen industry practitioners and a validation survey with 50 practitioner responses, we studied the concerns as well as challenges and best practices in ensuring the QA4AI properties reported in the literature, such as correctness, fairness, interpretability and others. Our findings suggest correctness as the most important property, followed by model relevance, efficiency and deployability. In contrast, transferability (applying knowledge learned in one task to another task), security and fairness are not paid much attention by practitioners compared to other properties. Challenges and solutions are identified for each QA4AI property. For example, interviewees highlighted the trade-off challenge among latency, cost and accuracy for efficiency (latency and cost are parts of efficiency concern). Solutions like model compression are proposed. We identified 21 QA4AI practices across each stage of AI development, with 10 practices being well recognized and another 8 practices being marginally agreed by the survey practitioners.
Abstract（参考訳）: 品質保証(QA)は、製造された製品の誤りや欠陥を防止し、製品やサービスを顧客に届ける際の問題を回避することを目的としている。しかし、aiシステムのqaは、データ駆動と非決定論的性質とより複雑なアーキテクチャとアルゴリズムを考えると、特定の課題を提起する。産業における機械学習の実践に関する実証的な証拠が増えているが、AIシステム(QA4AI)の品質保証の課題とベストプラクティスについてはほとんど知られていない。本稿では,各国および企業における産業実践におけるQA4AIの混合研究について報告する。 15人の業界実践者へのインタビューと50人の実践者による検証調査を通じて,正確性,公平性,解釈性などの文献に報告されているqa4aiの特性を保証する上での課題とベストプラクティスについて検討した。以上より,モデルの妥当性,効率性,デプロイ性などが示唆された。対照的に、トランスファービリティ(あるタスクで学んだ知識を別のタスクに適用する)、セキュリティ、公平さは、他のプロパティと比べて実践者からはあまり注目されない。各QA4AIプロパティに対してチャレンジとソリューションが識別される。例えば、インタビュアーは、レイテンシ、コスト、効率性の正確さ(レイテンシとコストは効率の懸念の一部)の間のトレードオフの課題を強調した。モデル圧縮のようなソリューションが提案されている。私たちは、ai開発の各段階で21のqa4aiプラクティスを特定し、10のプラクティスが十分に認識され、さらに8のプラクティスが調査実践者によってわずかに合意されています。

関連論文リスト

Software Fairness Testing in Practice [0.21427777919040417]
本研究では、ソフトウェアプロフェッショナルがAIとMLプロジェクトに取り組む22人の実践者とのインタビューを通じて、公正のためにAIを活用したシステムをテストする方法について検討する。以上の結果から,理論的公正の概念と産業実践との間に大きなギャップがあることが示唆された。主な課題は、データ品質と多様性、時間制約、効果的なメトリクスの定義、モデルの相互運用性の確保である。
論文参考訳（メタデータ） (2025-06-20T16:03:02Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
ORMind: A Cognitive-Inspired End-to-End Reasoning Framework for Operations Research [53.736407871322314]
ORMindは認知にインスパイアされたフレームワークで、反ファクト推論を通じて最適化を強化する。提案手法は,要求を数学的モデルや実行可能なコードに変換するエンド・ツー・エンドのワークフローを実装し,人間の認識をエミュレートする。現在はLenovoのAIアシスタントで内部でテストされており、ビジネスとコンシューマの両方の最適化機能を強化する予定である。
論文参考訳（メタデータ） (2025-06-02T05:11:21Z)
Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文参考訳（メタデータ） (2025-02-10T15:25:06Z)
An Empirical Study on Decision-Making Aspects in Responsible Software Engineering for AI [5.564793925574796]
本研究では、AIの責任あるソフトウェア工学(RSE)に固有の倫理的課題と複雑さについて検討する。個人の価値観、新しい役割、そしてAIに対する認識は、AIのためのRSEにおける決定に責任を負う。
論文参考訳（メタデータ） (2025-01-26T22:38:04Z)
Bridging the Communication Gap: Evaluating AI Labeling Practices for Trustworthy AI Development [41.64451715899638]
EUエネルギラベルのようなフレームワークにインスパイアされたハイレベルなAIラベルは、AIモデルの特性をより透明にするために提案されている。本研究は,4つの重要な研究課題に沿った質的なインタビューを通じて,AIラベリングを評価する。
論文参考訳（メタデータ） (2025-01-21T06:00:14Z)
Evaluation of OpenAI o1: Opportunities and Challenges of AGI [112.0812059747033]
o1-previewは目覚ましい能力を示し、しばしば人間レベルまたは優れたパフォーマンスを実現した。このモデルは、様々な分野にわたる複雑な推論と知識の統合を必要とするタスクに優れていた。総合的な結果は、人工知能への大きな進歩を示している。
論文参考訳（メタデータ） (2024-09-27T06:57:00Z)
Comprehensive Overview of Artificial Intelligence Applications in Modern Industries [0.3374875022248866]
本稿では、医療、金融、製造業、小売の4つの主要な分野にわたるAIの適用について検討する。我々は、倫理的考察、AI開発の将来的な軌跡、そして経済成長を促進する可能性など、AI統合がもたらす意味について論じる。
論文参考訳（メタデータ） (2024-09-19T19:22:52Z)
Trustworthy and Responsible AI for Human-Centric Autonomous Decision-Making Systems [2.444630714797783]
我々は、AIバイアス、定義、検出と緩和の方法、およびバイアスを評価するメトリクスの複雑さをレビューし、議論する。また、人間中心の意思決定のさまざまな領域におけるAIの信頼性と広範な適用に関して、オープンな課題についても論じる。
論文参考訳（メタデータ） (2024-08-28T06:04:25Z)
OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文参考訳（メタデータ） (2024-06-18T16:20:53Z)
Artificial Intelligence in Industry 4.0: A Review of Integration Challenges for Industrial Systems [45.31340537171788]
サイバー物理システム(CPS)は、予測保守や生産計画を含むアプリケーションに人工知能(AI)が活用できる膨大なデータセットを生成する。 AIの可能性を実証しているにもかかわらず、製造業のような分野に広く採用されていることは依然として限られている。
論文参考訳（メタデータ） (2024-05-28T20:54:41Z)
Testing autonomous vehicles and AI: perspectives and challenges from cybersecurity, transparency, robustness and fairness [53.91018508439669]
この研究は、人工知能を自律走行車(AV)に統合する複雑さを探求する AIコンポーネントがもたらした課題と、テスト手順への影響を調べます。本稿は、重要な課題を特定し、AV技術におけるAIの研究・開発に向けた今後の方向性を提案する。
論文参考訳（メタデータ） (2024-02-21T08:29:42Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
Towards Implementing Responsible AI [22.514717870367623]
我々は,AIシステムの設計と開発において,ソフトウェア工学で使用されるプロセスに適応する4つの側面を提案する。健全な発見は、AIシステム設計と開発、ソフトウェアエンジニアリングで使用されるプロセスの適応の4つの側面をカバーしている。
論文参考訳（メタデータ） (2022-05-09T14:59:23Z)
Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文参考訳（メタデータ） (2020-11-02T20:04:18Z)
Quality Management of Machine Learning Systems [0.0]
機械学習(ML)技術の大きな進歩により、人工知能(AI)は私たちの日常生活の一部になっています。ビジネス/ミッションクリティカルなシステムでは、AIアプリケーションの信頼性と保守性に関する深刻な懸念が残っている。本稿では,MLアプリケーションのための総合的な品質管理フレームワークの展望について述べる。
論文参考訳（メタデータ） (2020-06-16T21:34:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。