論文の概要: Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers
- arxiv url: http://arxiv.org/abs/2406.11339v1
- Date: Mon, 17 Jun 2024 08:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:31:23.320628
- Title: Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers
- Title(参考訳): AIチャットボットとヒューマンテスタの決定を探る
- Authors: Francisco Gomes de Oliveira Neto,
- Abstract要約: 意思決定は、コード、要求仕様、その他のソフトウェアアーティファクトなど、さまざまな情報に依存します。
不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
- 参考スコア(独自算出の注目度): 2.5327705116230477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) and chatbots introduces new challenges and opportunities for decision-making in software testing. Decision-making relies on a variety of information, including code, requirements specifications, and other software artifacts that are often unclear or exist solely in the developer's mind. To fill in the gaps left by unclear information, we often rely on assumptions, intuition, or previous experiences to make decisions. This paper explores the potential of LLM-based chatbots like Bard, Copilot, and ChatGPT, to support software testers in test decisions such as prioritizing test cases effectively. We investigate whether LLM-based chatbots and human testers share similar "assumptions" or intuition in prohibitive testing scenarios where exhaustive execution of test cases is often impractical. Preliminary results from a survey of 127 testers indicate a preference for diverse test scenarios, with a significant majority (96%) favoring dissimilar test sets. Interestingly, two out of four chatbots mirrored this preference, aligning with human intuition, while the others opted for similar test scenarios, chosen by only 3.9% of testers. Our initial insights suggest a promising avenue within the context of enhancing the collaborative dynamics between testers and chatbots.
- Abstract(参考訳): 大規模言語モデル(LLM)とチャットボットの統合は、ソフトウェアテストにおける新たな課題と意思決定の機会をもたらす。
決定決定は、コード、要求仕様、その他のソフトウェアアーティファクトを含む様々な情報に依存しており、しばしば不明瞭で、開発者の心にのみ存在する。
不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
本稿では,Bard,Copilot,ChatGPTといったLCMベースのチャットボットが,テストケースの優先順位付けを効果的に行うようなテスト決定において,ソフトウェアテスタを支援する可能性について検討する。
LLMベースのチャットボットとヒューマンテスタが、テストケースの徹底的な実行が現実的でない場合の禁止的なテストシナリオにおいて、同様の「仮定」や直感を共有しているかどうかを検討する。
127人のテスタを対象とした予備的な調査では、さまざまなテストシナリオが好まれており、大多数(96%)が異種テストセットを好んでいる。
興味深いことに、4つのうち2つのチャットボットがこの好みを反映し、人間の直感と一致し、他の2つは3.9%のテスタによって選択された同様のテストシナリオを選択した。
最初の洞察は、テスタとチャットボットの協調的ダイナミクスを強化するという文脈における、有望な道のりを示唆しています。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Analyzing Large language models chatbots: An experimental approach using a probability test [0.0]
本研究は2つの異なる大言語モデル(LLM)を用いた探索実験を通じて行われた定性的な経験的研究から成る。
方法としては,確率問題で設計されたプロンプトに基づいて探索試験を行った。
認知心理学において広く認知されている「リンダ問題」は、この実験に特化して新たな問題である「マリー問題」の開発とともに、テスト作成の基礎として用いられた。
論文 参考訳(メタデータ) (2024-07-10T15:49:40Z) - Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using
LLMs [30.024465480783835]
ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。
Weaverは大きな言語モデルを使用して知識ベースを生成し、インタラクティブに概念を推奨する。
論文 参考訳(メタデータ) (2023-10-14T21:24:03Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z) - Can a Chatbot Support Exploratory Software Testing? Preliminary Results [0.9249657468385781]
探索テストはアジャイルチームにおける事実上のアプローチです。
本稿では,ソフトウェアアプリケーションの探索テストを実施しながらテスタを支援するBotExpTestを提案する。
インスタントメッセージングソーシャルプラットフォームであるDiscord上にBotExpTestを実装しました。
予備的な分析は、BotExpTestが同じようなアプローチと同じくらい効果的であることを示し、テスタがさまざまなバグを明らかにするのに役立つことを示唆している。
論文 参考訳(メタデータ) (2023-07-11T21:11:21Z) - Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。
次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文 参考訳(メタデータ) (2023-06-09T05:55:52Z) - BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。
ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。
本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文 参考訳(メタデータ) (2023-02-14T22:07:57Z) - AutoML Two-Sample Test [13.468660785510945]
我々は、目撃者の関数の平均的な相違をテスト統計として捉えた単純なテストを使用し、二乗損失を最小限にすれば、最適なテスト能力を持つ目撃者につながることを証明します。
我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。
論文 参考訳(メタデータ) (2022-06-17T15:41:07Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。