論文の概要: Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using
LLMs
- arxiv url: http://arxiv.org/abs/2310.09668v1
- Date: Sat, 14 Oct 2023 21:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 19:13:22.894341
- Title: Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using
LLMs
- Title(参考訳): テスタのバイアスを超えて: llmを使ったモデルテストの知識ベースによるガイド
- Authors: Chenyang Yang, Rishabh Rustogi, Rachel Brower-Sinning, Grace A. Lewis,
Christian K\"astner, Tongshuang Wu
- Abstract要約: ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。
Weaverは大きな言語モデルを使用して知識ベースを生成し、インタラクティブに概念を推奨する。
- 参考スコア(独自算出の注目度): 30.024465480783835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current model testing work has mostly focused on creating test cases.
Identifying what to test is a step that is largely ignored and poorly
supported. We propose Weaver, an interactive tool that supports requirements
elicitation for guiding model testing. Weaver uses large language models to
generate knowledge bases and recommends concepts from them interactively,
allowing testers to elicit requirements for further testing. Weaver provides
rich external knowledge to testers and encourages testers to systematically
explore diverse concepts beyond their own biases. In a user study, we show that
both NLP experts and non-experts identified more, as well as more diverse
concepts worth testing when using Weaver. Collectively, they found more than
200 failing test cases for stance detection with zero-shot ChatGPT. Our case
studies further show that Weaver can help practitioners test models in
real-world settings, where developers define more nuanced application scenarios
(e.g., code understanding and transcript summarization) using LLMs.
- Abstract(参考訳): 現在のモデルテストの作業は主にテストケースの作成に重点を置いています。
テスト対象を特定することは、ほとんど無視され、サポートされていないステップです。
ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。
weaverは、大きな言語モデルを使用して知識ベースを生成し、対話的に概念を推奨する。
Weaverはテスタに豊富な外部知識を提供し、テスタが自身のバイアスを越えてさまざまな概念を体系的に探求することを奨励する。
ユーザスタディでは、NLPの専門家と非専門家の両方が、Weaverを使用する際にテストする価値のある、より多様な概念を特定した。
合計すると、ゼロショットチャットgptによるスタンス検出で200件以上のテストケースが失敗した。
私たちのケーススタディでは、Weaverが実践者が実世界の環境でモデルをテストするのに役立ち、開発者はLSMを使ってよりニュアンスなアプリケーションシナリオ(例えば、コード理解と書き起こしの要約)を定義することができます。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests [4.574205608859157]
我々は,検索ベースのソフトウェアテストと大規模言語モデルを組み合わせたUTGenを導入し,自動生成テストケースの理解性を向上する。
UTGenテストケースで課題に取り組む参加者は、最大33%のバグを修正し、ベースラインテストケースと比較して最大20%の時間を使用できます。
論文 参考訳(メタデータ) (2024-08-21T15:35:34Z) - Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers [2.5327705116230477]
意思決定は、コード、要求仕様、その他のソフトウェアアーティファクトなど、さまざまな情報に依存します。
不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
論文 参考訳(メタデータ) (2024-06-17T08:55:56Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Towards Autonomous Testing Agents via Conversational Large Language
Models [18.302956037305112]
大規模言語モデル(LLM)は自動テストアシスタントとして使用できる。
本稿では,LSMをベースとしたテストエージェントの自律性に基づく分類法を提案する。
論文 参考訳(メタデータ) (2023-06-08T12:22:38Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - TestAug: A Framework for Augmenting Capability-based NLP Tests [6.418039698186639]
機能ベースのNLPテストにより、モデル開発者はNLPモデルの機能機能をテストすることができる。
既存の機能ベースのテストでは、テストケースの作成に広範な手作業とドメインの専門知識が必要です。
本稿では, GPT-3 エンジンを用いたテストケース生成の低コスト化について検討する。
論文 参考訳(メタデータ) (2022-10-14T20:42:16Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。