論文の概要: A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry
- arxiv url: http://arxiv.org/abs/2305.13261v1
- Date: Fri, 5 May 2023 07:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-28 05:09:23.239961
- Title: A Review of Benchmarks for Visual Defect Detection in the Manufacturing
Industry
- Title(参考訳): 製造業における視覚障害検出ベンチマークの検討
- Authors: Philippe Carvalho (Roberval), Alexandre Durupt (Roberval), Yves
Grandvalet (Heudiasyc)
- Abstract要約: 本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
- 参考スコア(独自算出の注目度): 63.52264764099532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of industrial defect detection using machine learning and deep
learning is a subject of active research. Datasets, also called benchmarks, are
used to compare and assess research results. There is a number of datasets in
industrial visual inspection, of varying quality. Thus, it is a difficult task
to determine which dataset to use. Generally speaking, datasets which include a
testing set, with precise labeling and made in real-world conditions should be
preferred. We propose a study of existing benchmarks to compare and expose
their characteristics and their use-cases. A study of industrial metrics
requirements, as well as testing procedures, will be presented and applied to
the studied benchmarks. We discuss our findings by examining the current state
of benchmarks for industrial visual inspection, and by exposing guidelines on
the usage of benchmarks.
- Abstract(参考訳): 機械学習とディープラーニングを用いた産業欠陥検出の分野は活発な研究対象である。
ベンチマークとも呼ばれるデータセットは、研究結果の比較と評価に使用される。
工業用視覚検査には様々な品質のデータセットがある。
したがって、どのデータセットを使うかを決定するのは難しい。
一般的に、テストセットを含むデータセットは、正確なラベル付けと現実世界の条件で作成することが望ましい。
本稿では,既存のベンチマークを用いて,それらの特性とユースケースを比較し,公開する。
産業メトリクスの要求と試験手順についての研究は、研究されたベンチマークに提示され、適用されます。
本稿では, 産業用視覚検査用ベンチマークの現状を調査し, ベンチマーク使用に関するガイドラインを公開することによって, その知見を考察する。
関連論文リスト
- Benchmark Data Repositories for Better Benchmarking [26.15831504718431]
機械学習の研究では、ベンチマークデータセットのパフォーマンスを通じてアルゴリズムを評価することが一般的である。
我々は、これらの$textitbenchmarkデータレポジトリの状況と、ベンチマークを改善する上で彼らが果たす役割を分析します。
論文 参考訳(メタデータ) (2024-10-31T16:30:08Z) - Do Text-to-Vis Benchmarks Test Real Use of Visualisations? [11.442971909006657]
本稿では,ベンチマークデータセットと公開リポジトリのコードを比較した実証的研究を通じて,ベンチマークが実世界の利用を反映しているかどうかを考察する。
その結果,実世界の実例と同一のチャート型,属性,行動の分布を評価できないという,大きなギャップがあることが判明した。
1つのデータセットは代表的であるが、実用的なエンドツーエンドベンチマークになるには広範囲な修正が必要である。
これは、ユーザの視覚的ニーズに本当に対処するシステムの開発をサポートするために、新しいベンチマークが必要であることを示している。
論文 参考訳(メタデータ) (2024-07-29T06:13:28Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。
テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。
ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文 参考訳(メタデータ) (2024-04-29T16:05:36Z) - TRUCE: Private Benchmarking to Prevent Contamination and Improve Comparative Evaluation of LLMs [12.839640915518443]
ベンチマークは LLM を評価するためのデファクト標準であり、その速度、複製性、低コストのためである。
最近の研究によると、今日入手可能なオープンソースベンチマークの大部分は、LLMに汚染されたり、リークされたりしている。
テストデータセットをプライベートに保持し、モデルにテストデータを公開せずにモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
論文 参考訳(メタデータ) (2024-03-01T09:28:38Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - TextEE: Benchmark, Reevaluation, Reflections, and Future Challenges in Event Extraction [131.7684896032888]
イベント抽出のための標準化され、公正で再現可能なベンチマークであるTextEEを提示する。
TextEEは、標準化されたデータ前処理スクリプトと、8つの異なるドメインにまたがる16のデータセットの分割を含む。
TextEEベンチマークで5つの大きな言語モデルを評価し、満足なパフォーマンスを達成するのにどのように苦労しているかを実証した。
論文 参考訳(メタデータ) (2023-11-16T04:43:03Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - AI applications in forest monitoring need remote sensing benchmark
datasets [0.0]
森林モニタリングのための厳密で有用なベンチマークデータセットを作成するための要件と考察について述べる。
ベンチマークに貢献できる大規模なデータセットの例をリストアップし、コミュニティ主導の代表的なベンチマークイニシアチブがこの分野にどのような恩恵をもたらすかを示す。
論文 参考訳(メタデータ) (2022-12-20T01:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。