Fugu-MT 論文翻訳(概要): Automated Testing of AI Models

論文の概要: Automated Testing of AI Models

arxiv url: http://arxiv.org/abs/2110.03320v1
Date: Thu, 7 Oct 2021 10:30:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-09 02:16:44.373368
Title: Automated Testing of AI Models
Title（参考訳）: AIモデルの自動テスト
Authors: Swagatam Haldar, Deepak Vijaykeerthy, Diptikalyan Saha
Abstract要約: 我々は、AITESTツールの機能を拡張し、画像および音声テキストモデルのテスト技術を含める。これらの新たな拡張により、AIモデルをテストするための包括的なフレームワークがAIESTになる。
参考スコア（独自算出の注目度）: 3.0616624345970975
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The last decade has seen tremendous progress in AI technology and applications. With such widespread adoption, ensuring the reliability of the AI models is crucial. In past, we took the first step of creating a testing framework called AITEST for metamorphic properties such as fairness, robustness properties for tabular, time-series, and text classification models. In this paper, we extend the capability of the AITEST tool to include the testing techniques for Image and Speech-to-text models along with interpretability testing for tabular models. These novel extensions make AITEST a comprehensive framework for testing AI models.
Abstract（参考訳）: この10年で、AI技術とアプリケーションは大きく進歩した。このような広く採用されているため、AIモデルの信頼性を確保することが不可欠である。過去に我々は、表形式、時系列、テキスト分類モデルのための、公正性、堅牢性といったメタモルフィックな特性のための AITEST と呼ばれるテストフレームワークを作成する第一歩を踏み出した。本稿では,AITESTツールの機能を拡張し,画像モデルと音声-テキストモデルのテスト技術と,表形式モデルの解釈可能性テストを含める。これらの新しい拡張はAIモデルをテストするための包括的なフレームワークとなる。

関連論文リスト

Assessing Classical Machine Learning and Transformer-based Approaches for Detecting AI-Generated Research Text [0.0]
機械学習アプローチは、ChatGPT-3.5生成したテキストと人間のテキストを区別することができる。 DistilBERTは全体的な最高のパフォーマンスを達成し、Logistic RegressionとBERT-Customはしっかりとしたバランスの取れた代替手段を提供する。
論文参考訳（メタデータ） (2025-09-20T04:36:21Z)
Continual Learning for Generative AI: From LLMs to MLLMs and Beyond [56.29231194002407]
本稿では,主流生成型AIモデルに対する連続学習手法の総合的な調査を行う。これらのアプローチをアーキテクチャベース、正規化ベース、リプレイベースという3つのパラダイムに分類する。我々は、トレーニング目標、ベンチマーク、コアバックボーンを含む、異なる生成モデルに対する連続的な学習設定を分析する。
論文参考訳（メタデータ） (2025-06-16T02:27:25Z)
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution [77.86222359025011]
ツール学習のための自己改善フレームワークであるToolACE-DEVを提案する。まず、ツール学習の目的を、基本的なツール作成とツール利用能力を高めるサブタスクに分解する。次に、軽量モデルによる自己改善を可能にする自己進化パラダイムを導入し、高度なLCMへの依存を減らす。
論文参考訳（メタデータ） (2025-05-12T12:48:30Z)
AI-GenBench: A New Ongoing Benchmark for AI-Generated Image Detection [9.540547388707987]
Ai-GenBenchは、現実のシナリオにおけるAI生成イメージの堅牢な検出の必要性に対処するために設計された、新しいベンチマークである。 Ai-GenBenchは、明確な評価ルールと制御された拡張戦略を確立することにより、検出方法とスケーラブルなソリューションの有意義な比較を可能にする。
論文参考訳（メタデータ） (2025-04-29T15:41:13Z)
Benchmarking Generative AI Models for Deep Learning Test Input Generation [6.674615464230326]
テスト入力ジェネレータ(TIG)は、ディープラーニング(DL)画像分類器が、トレーニングやテストセットを超えて入力の正確な予測を提供する能力を評価するために不可欠である。ジェネレーティブAI(GenAI)モデルの最近の進歩は、合成画像の作成と操作のための強力なツールとなった。我々は、異なるGenAIモデルとTIGをベンチマークして組み合わせ、生成したテスト画像の有効性、効率、品質を評価する。
論文参考訳（メタデータ） (2024-12-23T15:30:42Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。 4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文参考訳（メタデータ） (2024-07-31T21:12:21Z)
XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach [2.0209172586699173]
本稿では,新しいXAI統合視覚品質検査フレームワークを提案する。我々のフレームワークはXAIとLarge Vision Language Modelを組み込んで人間中心の解釈可能性を提供する。このアプローチは、重要な産業アプリケーションに信頼性と解釈可能なAIツールを広く採用する道を開くものだ。
論文参考訳（メタデータ） (2024-07-16T14:30:24Z)
AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文参考訳（メタデータ） (2024-03-26T04:27:56Z)
IoTGeM: Generalizable Models for Behaviour-Based IoT Attack Detection [3.3772986620114387]
一般化性を重視したIoTネットワーク攻撃をモデル化するアプローチを提案する。まず,機能抽出のための転がり窓のアプローチを改良し,オーバーフィッティングを低減した多段階機能選択プロセスを提案する。次に、独立したトレインとテストデータセットを使用してモデルを構築し、テストする。第3に、機械学習モデル、評価指標、データセットの多様なポートフォリオを使用して、方法論を厳格に評価する。
論文参考訳（メタデータ） (2023-10-17T21:46:43Z)
AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文参考訳（メタデータ） (2023-10-03T06:55:19Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model, Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文参考訳（メタデータ） (2023-04-19T11:07:43Z)
Data Synthesis for Testing Black-Box Machine Learning Models [2.3800397174740984]
機械学習モデルの利用の増加は、これらのモデルの信頼性に関する疑問を提起する。本稿では、ブラックボックスML/DLモデルをテストするための自動テストデータ合成のためのフレームワークを提供する。
論文参考訳（メタデータ） (2021-11-03T12:00:30Z)
Testing Framework for Black-box AI Models [1.916485402892365]
本稿では,AIモデルをテストするためのエンドツーエンドの汎用フレームワークを提案する。我々のツールは産業用AIモデルのテストに使われており、問題を明らかにするのに非常に効果的でした。
論文参考訳（メタデータ） (2021-02-11T18:15:23Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。