論文の概要: ChatGPT Incorrectness Detection in Software Reviews
- arxiv url: http://arxiv.org/abs/2403.16347v1
- Date: Mon, 25 Mar 2024 00:50:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:26:58.783213
- Title: ChatGPT Incorrectness Detection in Software Reviews
- Title(参考訳): ソフトウェアレビューにおけるChatGPT誤検出
- Authors: Minaoar Hossain Tanzil, Junaed Younus Khan, Gias Uddin,
- Abstract要約: そこで我々は,ChatGPT応答における誤りを自動的に検出するCID(ChatGPT Incorrectness Detector)というツールを開発した。
ライブラリ選択のベンチマーク研究において、CIDはF1スコア0.74~0.75でChatGPTからの誤った応答を検出できることを示した。
- 参考スコア(独自算出の注目度): 0.38233569758620056
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We conducted a survey of 135 software engineering (SE) practitioners to understand how they use Generative AI-based chatbots like ChatGPT for SE tasks. We find that they want to use ChatGPT for SE tasks like software library selection but often worry about the truthfulness of ChatGPT responses. We developed a suite of techniques and a tool called CID (ChatGPT Incorrectness Detector) to automatically test and detect the incorrectness in ChatGPT responses. CID is based on the iterative prompting to ChatGPT by asking it contextually similar but textually divergent questions (using an approach that utilizes metamorphic relationships in texts). The underlying principle in CID is that for a given question, a response that is different from other responses (across multiple incarnations of the question) is likely an incorrect response. In a benchmark study of library selection, we show that CID can detect incorrect responses from ChatGPT with an F1-score of 0.74 - 0.75.
- Abstract(参考訳): 我々は、SEタスクにChatGPTのようなジェネレーティブAIベースのチャットボットをどのように利用するかを理解するために、135人のソフトウェアエンジニアリング(SE)実践者を対象に調査を行った。
ソフトウェアライブラリの選択のようなSEタスクにChatGPTを使用したいと思っていますが、多くの場合、ChatGPTレスポンスの真偽を心配しています。
そこで我々は,ChatGPT応答の誤りを自動的に検出するCID(ChatGPT Incorrectness Detector)を開発した。
CIDは、ChatGPTへの反復的なプロンプトに基づいて、文脈的に似ているがテキスト的に異なる質問(テキストのメタモルフィックな関係を利用したアプローチ)を問う。
CIDの根底にある原理は、ある質問に対して、他の応答(質問の複数のインカーネーション全体)とは異なる応答は、おそらく誤った反応であるということである。
ライブラリ選択のベンチマーク研究において、CIDはF1スコア0.74~0.75でChatGPTからの誤った応答を検出できることを示した。
関連論文リスト
- A Study on the Vulnerability of Test Questions against ChatGPT-based
Cheating [14.113742357609285]
ChatGPTはテキストのプロンプトを正確に答えることができる。
多くの教育者は、彼らの持ち帰りテストや遠隔テストや試験がChatGPTベースの不正行為に弱いことを発見している。
論文 参考訳(メタデータ) (2024-02-21T23:51:06Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - An empirical study of ChatGPT-3.5 on question answering and code
maintenance [14.028497274245227]
ChatGPTがプログラマを置き換え、ジョブを廃止するかどうかという懸念が高まっている。
そこで我々は,ChatGPTとプログラマの質問応答とソフトウェア保守を系統的に比較するための実証的研究を行った。
論文 参考訳(メタデータ) (2023-10-03T14:48:32Z) - Fighting Fire with Fire: Can ChatGPT Detect AI-generated Text? [20.37071875344405]
人間の書き起こし対AI生成テキスト検出におけるChatGPTのゼロショット性能を評価する。
我々は,ChatGPTがAI生成テキストや人文テキストの検出に対称的に有効であるかどうかを実証的に検討する。
論文 参考訳(メタデータ) (2023-08-02T17:11:37Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。