論文の概要: The AIQ Meta-Testbed: Pragmatically Bridging Academic AI Testing and
Industrial Q Needs
- arxiv url: http://arxiv.org/abs/2009.05260v1
- Date: Fri, 11 Sep 2020 07:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-19 21:52:25.736271
- Title: The AIQ Meta-Testbed: Pragmatically Bridging Academic AI Testing and
Industrial Q Needs
- Title(参考訳): AIQメタテストベッド:実践的なAIテストと産業Qの必要性
- Authors: Markus Borg
- Abstract要約: AIが普及するにつれて、品質保証の重要性が増す。
人工知能の意味や解釈については、単純な統計分析から、知覚的なヒューマノイドロボットまで、意見の一致がない。
本稿では,テストに焦点をあてて,対応する品質保証に取り組むための作業定義と実践的アプローチを共有する。
- 参考スコア(独自算出の注目度): 7.071451756288142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI solutions seem to appear in any and all application domains. As AI becomes
more pervasive, the importance of quality assurance increases. Unfortunately,
there is no consensus on what artificial intelligence means and interpretations
range from simple statistical analysis to sentient humanoid robots. On top of
that, quality is a notoriously hard concept to pinpoint. What does this mean
for AI quality? In this paper, we share our working definition and a pragmatic
approach to address the corresponding quality assurance with a focus on
testing. Finally, we present our ongoing work on establishing the AIQ
Meta-Testbed.
- Abstract(参考訳): AIソリューションは、あらゆるアプリケーションドメインに現れているようだ。
AIが普及するにつれて、品質保証の重要性が増す。
残念ながら、人工知能の意味や解釈について、単純な統計分析から感覚的なヒューマノイドロボットまで、コンセンサスはない。
それに加えて、品質は指摘が難しいことで悪名高いコンセプトだ。
これはaiの品質に何を意味するのか?
本稿では,テストに焦点をあてて,対応する品質保証に取り組むための作業定義と実践的アプローチを共有する。
最後に、AIQ Meta-Testbedの確立に向けた継続的な取り組みについて述べる。
関連論文リスト
- General Scales Unlock AI Evaluation with Explanatory and Predictive Power [57.7995945974989]
ベンチマークはAIの進歩を導くものだが、汎用AIシステムには限られた説明力と予測力を提供している。
私たちは、一般的なAIベンチマークが実際に何を計測しているかを説明することができる、AI評価のための一般的な尺度を紹介します。
私たちの完全に自動化された方法論は、飽和しない一般的なスケールにインスタンス要求を配置する18の新しく作られたルーリックの上に構築されます。
論文 参考訳(メタデータ) (2025-03-09T01:13:56Z) - On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文 参考訳(メタデータ) (2025-02-27T20:21:36Z) - Evaluating Intelligence via Trial and Error [59.80426744891971]
本研究では,試行錯誤プロセスにおける失敗回数に基づいて知性を評価するためのフレームワークとして,Survival Gameを紹介した。
フェールカウントの期待と分散の両方が有限である場合、新しい課題に対するソリューションを一貫して見つける能力を示す。
我々の結果は、AIシステムは単純なタスクで自律レベルを達成するが、より複雑なタスクではまだまだ遠いことを示している。
論文 参考訳(メタデータ) (2025-02-26T05:59:45Z) - Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
誤分類は、偽の盗作行為の告発や、オンラインコンテンツにおけるAIの普及に関する誤解を招く可能性がある。
我々は、AI-Polished-Text Evaluationデータセットを用いて、最先端の11のAIテキスト検出を体系的に評価した。
我々の発見によると、検出器は、最小限に磨き上げられたテキストをAI生成と誤分類し、AIの関与度を区別し、古いモデルと小さなモデルに偏見を示す。
論文 参考訳(メタデータ) (2025-02-21T18:45:37Z) - Work in Progress: AI-Powered Engineering-Bridging Theory and Practice [0.0]
本稿では,システム工学の重要なステップを自動化し,改善する上で,生成AIがいかに役立つかを考察する。
INCOSEの"よい要件"基準に基づいて、システム要件を分析するAIの能力を調べる。
この研究は、エンジニアリングプロセスを合理化し、学習結果を改善するAIの可能性を評価することを目的としている。
論文 参考訳(メタデータ) (2025-02-06T17:42:00Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Human Bias in the Face of AI: The Role of Human Judgement in AI Generated Text Evaluation [48.70176791365903]
本研究では、偏見がAIと人為的コンテンツの知覚をどう形成するかを考察する。
ラベル付きおよびラベルなしコンテンツに対するヒトのラッカーの反応について検討した。
論文 参考訳(メタデータ) (2024-09-29T04:31:45Z) - On the consistent reasoning paradox of intelligence and optimal trust in AI: The power of 'I don't know' [79.69412622010249]
一貫性推論(Consistent reasoning)は、人間の知性の中心にある、同等のタスクを扱う能力である。
CRPは、一貫性のある推論は誤認を意味する、と論じている。
論文 参考訳(メタデータ) (2024-08-05T10:06:53Z) - Suffering Toasters -- A New Self-Awareness Test for AI [0.0]
現在のインテリジェンステストはすべて、インテリジェンスの存在や欠如を示すには不十分である、と我々は主張する。
人工自己認識のための新しい手法を提案し,その実装の概要を述べる。
論文 参考訳(メタデータ) (2023-06-29T18:58:01Z) - Bending the Automation Bias Curve: A Study of Human and AI-based
Decision Making in National Security Contexts [0.0]
私たちは、AIに関する背景知識とAIに対する信頼の関係、自動化バイアスの確率に影響を与える他の要因との相互作用について理論を立てています。
我々は、AI産業のレベルが異なる9カ国の9000人の成人の代表例を対象に、事前登録されたタスク識別実験でテストを行った。
論文 参考訳(メタデータ) (2023-06-28T18:57:36Z) - On the Influence of Explainable AI on Automation Bias [0.0]
我々は、説明可能なAI(XAI)によって自動化バイアスに影響を与える可能性に光を当てることを目指している。
ホテルのレビュー分類に関するオンライン実験を行い、最初の結果について議論する。
論文 参考訳(メタデータ) (2022-04-19T12:54:23Z) - Metaethical Perspectives on 'Benchmarking' AI Ethics [81.65697003067841]
ベンチマークは、人工知能(AI)研究の技術的進歩を測定するための基盤とみられている。
AIの顕著な研究領域は倫理であり、現在、ベンチマークのセットも、AIシステムの「倫理性」を測定する一般的な方法もない。
我々は、現在と将来のAIシステムのアクションを考えるとき、倫理よりも「価値」について話す方が理にかなっていると論じる。
論文 参考訳(メタデータ) (2022-04-11T14:36:39Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Hybrid Intelligence [4.508830262248694]
今後数十年間、人間と機械の間の労働分業の最も可能性の高いパラダイムはハイブリッド・インテリジェンスであると主張する。
このコンセプトは、人間の知性とAIの相補的な強みを利用することを目標とし、それぞれが個別にできることよりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-05-03T08:56:09Z) - Socially Responsible AI Algorithms: Issues, Purposes, and Challenges [31.382000425295885]
技術者とAI研究者は、信頼できるAIシステムを開発する責任がある。
AIと人間の長期的な信頼を構築するためには、アルゴリズムの公正性を超えて考えることが鍵だ、と私たちは主張する。
論文 参考訳(メタデータ) (2021-01-01T17:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。