Fugu-MT 論文翻訳(概要): Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers

論文の概要: Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers

arxiv url: http://arxiv.org/abs/2406.11339v1
Date: Mon, 17 Jun 2024 08:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 15:31:23.320628
Title: Unveiling Assumptions: Exploring the Decisions of AI Chatbots and Human Testers
Title（参考訳）: AIチャットボットとヒューマンテスタの決定を探る
Authors: Francisco Gomes de Oliveira Neto,
Abstract要約: 意思決定は、コード、要求仕様、その他のソフトウェアアーティファクトなど、さまざまな情報に依存します。不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。
参考スコア（独自算出の注目度）: 2.5327705116230477
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The integration of Large Language Models (LLMs) and chatbots introduces new challenges and opportunities for decision-making in software testing. Decision-making relies on a variety of information, including code, requirements specifications, and other software artifacts that are often unclear or exist solely in the developer's mind. To fill in the gaps left by unclear information, we often rely on assumptions, intuition, or previous experiences to make decisions. This paper explores the potential of LLM-based chatbots like Bard, Copilot, and ChatGPT, to support software testers in test decisions such as prioritizing test cases effectively. We investigate whether LLM-based chatbots and human testers share similar "assumptions" or intuition in prohibitive testing scenarios where exhaustive execution of test cases is often impractical. Preliminary results from a survey of 127 testers indicate a preference for diverse test scenarios, with a significant majority (96%) favoring dissimilar test sets. Interestingly, two out of four chatbots mirrored this preference, aligning with human intuition, while the others opted for similar test scenarios, chosen by only 3.9% of testers. Our initial insights suggest a promising avenue within the context of enhancing the collaborative dynamics between testers and chatbots.
Abstract（参考訳）: 大規模言語モデル(LLM)とチャットボットの統合は、ソフトウェアテストにおける新たな課題と意思決定の機会をもたらす。決定決定は、コード、要求仕様、その他のソフトウェアアーティファクトを含む様々な情報に依存しており、しばしば不明瞭で、開発者の心にのみ存在する。不明瞭な情報によって残されたギャップを埋めるために、私たちはしばしば、前提や直観、あるいは以前の経験に頼って意思決定をします。本稿では,Bard,Copilot,ChatGPTといったLCMベースのチャットボットが,テストケースの優先順位付けを効果的に行うようなテスト決定において,ソフトウェアテスタを支援する可能性について検討する。 LLMベースのチャットボットとヒューマンテスタが、テストケースの徹底的な実行が現実的でない場合の禁止的なテストシナリオにおいて、同様の「仮定」や直感を共有しているかどうかを検討する。 127人のテスタを対象とした予備的な調査では、さまざまなテストシナリオが好まれており、大多数(96%)が異種テストセットを好んでいる。興味深いことに、4つのうち2つのチャットボットがこの好みを反映し、人間の直感と一致し、他の2つは3.9%のテスタによって選択された同様のテストシナリオを選択した。最初の洞察は、テスタとチャットボットの協調的ダイナミクスを強化するという文脈における、有望な道のりを示唆しています。

関連論文リスト

Triangulating LLM Progress through Benchmarks, Games, and Cognitive Tests [89.09172401497213]
本稿では,大規模質問応答ベンチマーク,インタラクティブゲーム,認知テストの3つの評価パラダイムについて検討する。効果的な言語使用に不可欠な認知能力を測定するための,対象とするテストスイートをコンパイルする。分析の結果,対話型ゲームは判別モデルにおける標準ベンチマークよりも優れていることがわかった。
論文参考訳（メタデータ） (2025-02-20T08:36:58Z)
Adaptive Testing for LLM-Based Applications: A Diversity-based Approach [15.33985438101206]
本稿では,適応ランダムテスト(ART)のような多様性に基づくテスト手法が,プロンプトテンプレートのテストに効果的に適用可能であることを示す。いくつかの文字列ベース距離を探索する様々な実装を用いて得られた結果,本手法が試験予算の削減による故障の発見を可能にすることを確認した。
論文参考訳（メタデータ） (2025-01-23T08:53:12Z)
Fine-grained Testing for Autonomous Driving Software: a Study on Autoware with LLM-driven Unit Testing [12.067489008051208]
本稿では、自律運転システム(ADS)ソースコードに対するテスト、特に単体テストに関する最初の研究について述べる。大型言語モデル(LLM)による人書きテストケースと生成事例の両方を解析する。 AwTest-LLMは,テストカバレッジを向上し,テストケースパス率をAutowareパッケージ間で改善するための新しいアプローチである。
論文参考訳（メタデータ） (2025-01-16T22:36:00Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
Analyzing Large language models chatbots: An experimental approach using a probability test [0.0]
本研究は2つの異なる大言語モデル(LLM)を用いた探索実験を通じて行われた定性的な経験的研究から成る。方法としては,確率問題で設計されたプロンプトに基づいて探索試験を行った。認知心理学において広く認知されている「リンダ問題」は、この実験に特化して新たな問題である「マリー問題」の開発とともに、テスト作成の基礎として用いられた。
論文参考訳（メタデータ） (2024-07-10T15:49:40Z)
Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using LLMs [30.024465480783835]
ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。 Weaverは大きな言語モデルを使用して知識ベースを生成し、インタラクティブに概念を推奨する。
論文参考訳（メタデータ） (2023-10-14T21:24:03Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文参考訳（メタデータ） (2023-09-07T17:44:56Z)
Can a Chatbot Support Exploratory Software Testing? Preliminary Results [0.9249657468385781]
探索テストはアジャイルチームにおける事実上のアプローチです。本稿では,ソフトウェアアプリケーションの探索テストを実施しながらテスタを支援するBotExpTestを提案する。インスタントメッセージングソーシャルプラットフォームであるDiscord上にBotExpTestを実装しました。予備的な分析は、BotExpTestが同じようなアプローチと同じくらい効果的であることを示し、テスタがさまざまなバグを明らかにするのに役立つことを示唆している。
論文参考訳（メタデータ） (2023-07-11T21:11:21Z)
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena [76.21004582932268]
本研究では, LLM-as-a-judgeの使用状況と限界について検討し, 位置, 冗長性, 自己改善バイアスについて検討した。次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるArenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。
論文参考訳（メタデータ） (2023-06-09T05:55:52Z)
BiasTestGPT: Using ChatGPT for Social Bias Testing of Language Models [73.29106813131818]
テスト文は限られた手動テンプレートから生成されるか、高価なクラウドソーシングを必要とするため、現時点ではバイアステストは煩雑である。ソーシャルグループと属性の任意のユーザ指定の組み合わせを考慮し、テスト文の制御可能な生成にChatGPTを使うことを提案する。本稿では,HuggingFace上にホストされているオープンソースの総合的バイアステストフレームワーク(BiasTestGPT)について紹介する。
論文参考訳（メタデータ） (2023-02-14T22:07:57Z)
AutoML Two-Sample Test [13.468660785510945]
我々は、目撃者の関数の平均的な相違をテスト統計として捉えた単純なテストを使用し、二乗損失を最小限にすれば、最適なテスト能力を持つ目撃者につながることを証明します。我々はPythonパッケージAutotstでAutoMLの2サンプルテストの実装を提供する。
論文参考訳（メタデータ） (2022-06-17T15:41:07Z)
TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文参考訳（メタデータ） (2021-05-21T03:41:10Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。