論文の概要: Exploring ML testing in practice -- Lessons learned from an interactive
rapid review with Axis Communications
- arxiv url: http://arxiv.org/abs/2203.16225v1
- Date: Wed, 30 Mar 2022 12:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:51:43.449538
- Title: Exploring ML testing in practice -- Lessons learned from an interactive
rapid review with Axis Communications
- Title(参考訳): 実践的なMLテストの探索 -- Axis Communicationsによるインタラクティブな迅速なレビューから学んだ教訓
- Authors: Qunying Song and Markus Borg and Emelie Engstr\"om and H{\aa}kan
Ard\"o and Sergio Rico
- Abstract要約: 機械学習(ML)テストでは、業界や学界への関心が高まっている。
産業とアカデミックは、厳密で関連する知識を生み出すために共に学ぶ必要があると信じています。
- 参考スコア(独自算出の注目度): 4.875319458066472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a growing interest in industry and academia in machine learning (ML)
testing. We believe that industry and academia need to learn together to
produce rigorous and relevant knowledge. In this study, we initiate a
collaboration between stakeholders from one case company, one research
institute, and one university. To establish a common view of the problem
domain, we applied an interactive rapid review of the state of the art. Four
researchers from Lund University and RISE Research Institutes and four
practitioners from Axis Communications reviewed a set of 180 primary studies on
ML testing. We developed a taxonomy for the communication around ML testing
challenges and results and identified a list of 12 review questions relevant
for Axis Communications. The three most important questions (data testing,
metrics for assessment, and test generation) were mapped to the literature, and
an in-depth analysis of the 35 primary studies matching the most important
question (data testing) was made. A final set of the five best matches were
analysed and we reflect on the criteria for applicability and relevance for the
industry. The taxonomies are helpful for communication but not final.
Furthermore, there was no perfect match to the case company's investigated
review question (data testing). However, we extracted relevant approaches from
the five studies on a conceptual level to support later context-specific
improvements. We found the interactive rapid review approach useful for
triggering and aligning communication between the different stakeholders.
- Abstract(参考訳): 機械学習(ML)テストでは、業界や学界への関心が高まっている。
産業とアカデミックは、厳密で関連する知識を生み出すために共に学ぶ必要があると信じています。
本研究では,1つの事例会社,1つの研究機関,および1つの大学からの利害関係者のコラボレーションを開始する。
問題領域の共通見解を確立するため,我々はインタラクティブに最先端の迅速なレビューを行った。
Lund UniversityとRISE Research Institutesの4人の研究者とAxis Communicationsの4人の実践者が、MLテストに関する180の研究をレビューした。
我々は、MLテストの課題と結果に関するコミュニケーションのための分類法を開発し、軸通信に関連する12のレビュー質問のリストを特定した。
3つの重要な質問(データテスト、アセスメントのためのメトリクス、テスト生成)を文献にマッピングし、最も重要な質問(データテスト)にマッチする35の一次研究の詳細な分析を行った。
5つのベストマッチの最終セットを分析し、業界への適用性および関連性の基準を反映した。
分類はコミュニケーションに役立つが、最終ではない。
さらに、調査対象のレビュー問題(データテスト)には、完璧に一致しなかった。
しかし、概念レベルに関する5つの研究から関連するアプローチを抽出し、後続の文脈固有の改善をサポートする。
インタラクティブな迅速なレビューアプローチは、異なるステークホルダ間のコミュニケーションをトリガーし、調整するのに役立ちました。
関連論文リスト
- RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。
我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。
複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文 参考訳(メタデータ) (2024-06-09T08:24:17Z) - SceMQA: A Scientific College Entrance Level Multimodal Question
Answering Benchmark [42.91902601376494]
本稿では,SceMQAについて紹介する。SceMQAは,大学入学レベルでの科学的マルチモーダル質問応答のための新しいベンチマークである。
SceMQAは数学、物理学、化学、生物学などの中核的な科学分野に焦点を当てている。
複数選択と自由応答の混在を特徴とし、AIモデルの能力を総合的に評価する。
論文 参考訳(メタデータ) (2024-02-06T19:16:55Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - The Quantum Frontier of Software Engineering: A Systematic Mapping Study [16.93115872272979]
量子ソフトウェアエンジニアリング(QSE)は、開発者が量子プログラムを設計、開発できる新しい分野として登場しつつある。
本稿では,QSE研究の現状に関する系統地図研究について述べる。
論文 参考訳(メタデータ) (2023-05-31T09:26:10Z) - The impact and applications of ChatGPT: a systematic review of
literature reviews [0.0]
ChatGPTは、最も広く使われている自然言語処理ツールの1つである。
様々な産業や分野にまたがる応用を実証する何千もの論文が出版され、ChatGPTは研究コミュニティに大きな関心を呼んだ。
複数のレビューや研究から得られた証拠の概要は、さらなる洞察を与え、冗長性を最小化し、さらなる研究が必要な領域を特定することができる。
論文 参考訳(メタデータ) (2023-05-08T17:57:34Z) - The Technological Emergence of AutoML: A Survey of Performant Software
and Applications in the Context of Industry [72.10607978091492]
Automated/Autonomous Machine Learning (AutoML/AutonoML)は比較的若い分野である。
このレビューは、このトピックに関する知識に2つの主要な貢献をしている。
オープンソースと商用両方の既存のAutoMLツールについて、最新かつ包括的な調査を提供する。
論文 参考訳(メタデータ) (2022-11-08T10:42:08Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。