論文の概要: ChatGPT Inaccuracy Mitigation during Technical Report Understanding: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2411.07360v1
- Date: Mon, 11 Nov 2024 20:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:09.755548
- Title: ChatGPT Inaccuracy Mitigation during Technical Report Understanding: Are We There Yet?
- Title(参考訳): 技術的報告におけるChatGPT不正確な緩和について:まだ存在するか?
- Authors: Salma Begum Tamanna, Gias Uddin, Song Wang, Lan Xia, Longyu Zhang,
- Abstract要約: ChatGPTは、テクストと技術的用語の両方を含む技術的テキストに対して、どのように幻覚を与えるのかは不明である。
ChiMEは文脈自由文法を用いて、技術的レポートのスタックトレースを解析する。
ChiMEはChatGPT応答に対して30.3%の補正を行っている。
- 参考スコア(独自算出の注目度): 6.079560395398429
- License:
- Abstract: Hallucinations, the tendency to produce irrelevant/incorrect responses, are prevalent concerns in generative AI-based tools like ChatGPT. Although hallucinations in ChatGPT are studied for textual responses, it is unknown how ChatGPT hallucinates for technical texts that contain both textual and technical terms. We surveyed 47 software engineers and produced a benchmark of 412 Q&A pairs from the bug reports of two OSS projects. We find that a RAG-based ChatGPT (i.e., ChatGPT tuned with the benchmark issue reports) is 36.4% correct when producing answers to the questions, due to two reasons 1) limitations to understand complex technical contents in code snippets like stack traces, and 2) limitations to integrate contexts denoted in the technical terms and texts. We present CHIME (ChatGPT Inaccuracy Mitigation Engine) whose underlying principle is that if we can preprocess the technical reports better and guide the query validation process in ChatGPT, we can address the observed limitations. CHIME uses context-free grammar (CFG) to parse stack traces in technical reports. CHIME then verifies and fixes ChatGPT responses by applying metamorphic testing and query transformation. In our benchmark, CHIME shows 30.3% more correction over ChatGPT responses. In a user study, we find that the improved responses with CHIME are considered more useful than those generated from ChatGPT without CHIME.
- Abstract(参考訳): 幻覚は、ChatGPTのような生成AIベースのツールにおいて、無関係で不適切な反応をもたらす傾向にある。
ChatGPTの幻覚は、テキスト応答のために研究されているが、ChatGPTが、テクスチャと技術用語の両方を含む技術的テキストに対して、どのように幻覚を行っているかは不明である。
2つのOSSプロジェクトのバグレポートから、47人のソフトウェアエンジニアを調査し、412のQ&Aペアのベンチマークを作成しました。
2つの理由から、RAGベースのChatGPT(すなわちベンチマークイシューレポートに合わせたChatGPT)が質問に対する回答を生成する場合、36.4%の正解であることがわかった。
1)スタックトレースのようなコードスニペットの複雑な技術的内容を理解するための制限。
2) 技術的用語やテキストで表されるコンテキストを統合することの制限。
本稿では,CHIME(ChatGPT不正確さ軽減エンジン)について述べる。その基本原理は,技術的レポートを前処理し,ChatGPTのクエリ検証プロセスを導くことができれば,観測された制限に対処できるということだ。
CHIMEは文脈自由文法(CFG)を用いて、技術的レポートのスタックトレースを解析する。
CHIMEは、メタモルフィックテストとクエリ変換を適用することで、ChatGPT応答の検証と修正を行う。
我々のベンチマークでは、CHIMEはChatGPT応答よりも30.3%高い補正を示している。
ユーザスタディでは、CHIMEによる改善された応答は、CHIMEを使わずにChatGPTから生成された応答よりも有用であると考えられる。
関連論文リスト
- Fight Fire with Fire: How Much Can We Trust ChatGPT on Source Code-Related Tasks? [10.389763758883975]
近年の研究では、ChatGPTを開発者とテスターの両方に活用することを提案した。
コード生成,コード補完,プログラム修復におけるChatGPTの自己検証能力を評価するための総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2024-05-21T09:47:33Z) - Exploring ChatGPT's Capabilities on Vulnerability Management [56.4403395100589]
我々は、70,346のサンプルを含む大規模なデータセットを用いて、完全な脆弱性管理プロセスを含む6つのタスクでChatGPTの機能を探求する。
注目すべき例として、ChatGPTのソフトウェアバグレポートのタイトル生成などのタスクにおける熟練度がある。
以上の結果から,ChatGPTが抱える障害が明らかとなり,将来的な方向性に光を当てた。
論文 参考訳(メタデータ) (2023-11-11T11:01:13Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - A Critical Review of Large Language Model on Software Engineering: An Example from ChatGPT and Automated Program Repair [19.123640635549524]
大規模言語モデル(LLM)が注目され、様々なソフトウェアエンジニアリングタスクで有望なパフォーマンスを示した。
本稿では,ChatGPTのバグ修正機能について,研究目的の異なるクリーンAPRベンチマークで概説する。
ChatGPTは、35ラウンド以内の基本的なプロンプトを使用して151のバグギープログラムのうち109を修正でき、最先端のLLM CodeT5とPLBARTを27.5%、予測精度62.4%で上回っている。
論文 参考訳(メタデータ) (2023-10-13T06:11:47Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - To ChatGPT, or not to ChatGPT: That is the question! [78.407861566006]
本研究は,ChatGPT検出における最新の手法を包括的かつ現代的に評価するものである。
我々は、ChatGPTと人間からのプロンプトからなるベンチマークデータセットをキュレートし、医療、オープンQ&A、ファイナンスドメインからの多様な質問を含む。
評価の結果,既存の手法ではChatGPT生成内容を効果的に検出できないことがわかった。
論文 参考訳(メタデータ) (2023-04-04T03:04:28Z) - Towards Making the Most of ChatGPT for Machine Translation [75.576405098545]
ChatGPTは機械翻訳(MT)の優れた機能を示す
いくつかの先行研究により、ハイソース言語の商用システムと同等の結果が得られることが示されている。
論文 参考訳(メタデータ) (2023-03-24T03:35:21Z) - ChatGPT or Grammarly? Evaluating ChatGPT on Grammatical Error Correction
Benchmark [11.36853733574956]
ChatGPTはOpenAIが開発した最先端の人工知能言語モデルである。
商用のGEC製品(例:Grammarly)や最先端のモデル(例:GECToR)と比較する。
また,ChatGPTは,自動評価指標の基準値ほど性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-03-15T00:35:50Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。