論文の概要: DeepTest Tool Competition 2026: Benchmarking an LLM-Based Automotive Assistant
- arxiv url: http://arxiv.org/abs/2604.12615v1
- Date: Tue, 14 Apr 2026 11:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.414547
- Title: DeepTest Tool Competition 2026: Benchmarking an LLM-Based Automotive Assistant
- Title(参考訳): DeepTest Tool Competition 2026: LLMベースの自動車アシスタントのベンチマーク
- Authors: Lev Sorokin, Ivan Vasilev, Samuele Pasini,
- Abstract要約: 本報告では,ICSE 2026のDeepTestワークショップの一環として開催されたLarge Language Model (LLM) Testingコンペティションの第1版の結果を要約する。
- 参考スコア(独自算出の注目度): 0.5352699766206808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report summarizes the results of the first edition of the Large Language Model (LLM) Testing competition, held as part of the DeepTest workshop at ICSE 2026. Four tools competed in benchmarking an LLM-based car manual information retrieval application, with the objective of identifying user inputs for which the system fails to appropriately mention warnings contained in the manual. The testing solutions were evaluated based on their effectiveness in exposing failures and the diversity of the discovered failure-revealing tests. We report on the experimental methodology, the competitors, and the results.
- Abstract(参考訳): 本報告では,ICSE 2026のDeepTestワークショップの一環として開催されたLarge Language Model (LLM) Testingコンペティションの第1版の結果を要約する。
LLMベースの車載手動情報検索アプリケーションのベンチマークでは,システムがマニュアルに含まれる警告を適切に参照できないユーザ入力を識別する目的で,4つのツールが競合した。
テストソリューションは、失敗を露呈する効果と、発見された障害発見テストの多様性に基づいて評価された。
実験手法,競争相手,その結果について報告する。
関連論文リスト
- Measuring what Matters: Construct Validity in Large Language Model Benchmarks [103.53142193393931]
大規模言語モデル(LLM)を評価することは、その能力を評価し、デプロイ前に安全性や堅牢性の問題を特定するために重要である。
自然言語処理と機械学習における主要なカンファレンスから445のベンチマークを体系的にレビューする。
結果の妥当性を損なう現象,課題,評価指標に関連するパターンを見いだす。
論文 参考訳(メタデータ) (2025-11-03T17:39:40Z) - MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges? [66.87201770167012]
MLRC-Benchは、機械学習(ML)リサーチコンペティションの挑戦において、言語エージェントがいかに効果的に対処できるかを定量化するために設計されたベンチマークである。
MLRC-Benchは以前の研究とは異なり、新しい研究手法を提案し、実装する上で重要なステップを計測する。
最も優れた試験薬でさえ、ベースラインとトップヒューマンのスコアの差の9.3%しか閉じていない。
論文 参考訳(メタデータ) (2025-04-13T19:35:43Z) - ICST Tool Competition 2025 - Self-Driving Car Testing Track [5.169094293336516]
目的は、ソフトウェアテスタがSDCのシミュレーションベースのテストでテスト選択の問題に対処するツールを提出するためのプラットフォームを提供することである。
本稿では,コンペの状況,フレームワーク,参加ツール,評価方法論,重要な知見について概説する。
論文 参考訳(メタデータ) (2025-02-14T08:08:56Z) - Unit Testing Past vs. Present: Examining LLMs' Impact on Defect Detection and Efficiency [2.4936576553283283]
ソフトウェア工学へのLLM(Large Language Models)の統合は生産性を高める可能性を示している。
本稿では,LLMサポートが単体テスト時の欠陥検出効率を向上させるかを検討する。
論文 参考訳(メタデータ) (2025-02-13T22:27:55Z) - Fine-grained Testing for Autonomous Driving Software: a Study on Autoware with LLM-driven Unit Testing [12.067489008051208]
本稿では、自律運転システム(ADS)ソースコードに対するテスト、特に単体テストに関する最初の研究について述べる。
大型言語モデル(LLM)による人書きテストケースと生成事例の両方を解析する。
AwTest-LLMは,テストカバレッジを向上し,テストケースパス率をAutowareパッケージ間で改善するための新しいアプローチである。
論文 参考訳(メタデータ) (2025-01-16T22:36:00Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - PentestGPT: An LLM-empowered Automatic Penetration Testing Tool [20.449761406790415]
大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せている。
実世界の浸透試験におけるLLMの性能を,プラットフォームを用いたテストマシンから作成した頑健なベンチマークを用いて評価した。
LLMを利用した自動浸透試験ツールであるPentestGPTを紹介する。
論文 参考訳(メタデータ) (2023-08-13T14:35:50Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models [57.80514758695275]
機械翻訳(MT)の品質を評価するために,大規模言語モデル(LLM)を用いることで,システムレベルでの最先端のパフォーマンスを実現する。
我々はtextbftexttError Analysis Prompting (EAPrompt) と呼ばれる新しいプロンプト手法を提案する。
本手法は,多次元品質指標 (MQM) とtextitproduces を用いて,システムレベルとセグメントレベルの両方で説明可能かつ信頼性の高いMT評価を行う。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。