Fugu-MT 論文翻訳(概要): Towards Detecting Prompt Knowledge Gaps for Improved LLM-guided Issue Resolution

論文の概要: Towards Detecting Prompt Knowledge Gaps for Improved LLM-guided Issue Resolution

arxiv url: http://arxiv.org/abs/2501.11709v3
Date: Tue, 25 Feb 2025 18:32:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:44.748623
Title: Towards Detecting Prompt Knowledge Gaps for Improved LLM-guided Issue Resolution
Title（参考訳）: LLM誘導問題解決のための突発的知識ギャップ検出に向けて
Authors: Ramtin Ehsani, Sakshi Pathak, Preetha Chatterjee,
Abstract要約: GitHubイシュースレッド内の433人の開発者-ChatGPT会話を分析し、インシデントギャップと会話スタイルが課題解決に与える影響を調べる。不効果的な会話は44.6%のプロンプトで知識ギャップを含んでいるのに対し、効果的な会話では12.6%しかなかった。
参考スコア（独自算出の注目度）: 3.768737590492549
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have become essential in software development, especially for issue resolution. However, despite their widespread use, significant challenges persist in the quality of LLM responses to issue resolution queries. LLM interactions often yield incorrect, incomplete, or ambiguous information, largely due to knowledge gaps in prompt design, which can lead to unproductive exchanges and reduced developer productivity. In this paper, we analyze 433 developer-ChatGPT conversations within GitHub issue threads to examine the impact of prompt knowledge gaps and conversation styles on issue resolution. We identify four main knowledge gaps in developer prompts: Missing Context, Missing Specifications, Multiple Context, and Unclear Instructions. Assuming that conversations within closed issues contributed to successful resolutions while those in open issues did not, we find that ineffective conversations contain knowledge gaps in 44.6% of prompts, compared to only 12.6% in effective ones. Additionally, we observe seven distinct conversational styles, with Directive Prompting, Chain of Thought, and Responsive Feedback being the most prevalent. We find that knowledge gaps are present in all styles of conversations, with Missing Context being the most repeated challenge developers face in issue-resolution conversations. Based on our analysis, we identify key textual and code-related heuristics (Specificity, Contextual Richness, and Clarity) that are associated with successful issue closure and help assess prompt quality. These heuristics lay the foundation for an automated tool that can dynamically flag unclear prompts and suggest structured improvements. To test feasibility, we developed a lightweight browser extension prototype for detecting prompt gaps, that can be easily adapted to other tools within developer workflows.
Abstract（参考訳）: 大規模言語モデル(LLM)は、特に問題解決のためにソフトウェア開発において欠かせないものとなっている。しかし、広く使われているにもかかわらず、LLM応答の品質に重大な課題が続いている。 LLMの相互作用は、しばしば不正確、不完全、曖昧な情報をもたらすが、それは主に、迅速な設計における知識の欠如によるものであり、非生産的な交換と開発者の生産性の低下につながる。本稿では,GitHub のイシュースレッド内の 433 人の開発者-ChatGPT 会話を分析し,インシデントギャップと会話スタイルが課題解決に与える影響について検討する。開発者のプロンプトにおける4つの主要な知識ギャップを識別する。クローズド・イシュー内の会話が解決に寄与する一方、オープン・イシューの会話は成功しなかったと仮定すると、非効率な会話は44.6%のプロンプトで知識ギャップを含んでいるのに対し、効果的な会話は12.6%しかなかった。さらに、7つの異なる会話スタイルを観察し、ディレクティブ・プロンプティング(Directive Prompting)、思考の連鎖(Chain of Thought)、レスポンシブ・フィードバック(Responsive Feedback)が最も一般的である。知識のギャップはあらゆるタイプの会話に存在し、Missing Contextは開発者が課題解決の会話で直面する最も繰り返し直面する課題である。本分析により,課題の解決に結びつく重要なテキストおよびコード関連ヒューリスティック(特定性,コンテキスト豊かさ,明確性)を同定し,迅速な品質評価を支援する。これらのヒューリスティックは、不明瞭なプロンプトを動的にフラグ付けし、構造化された改善を提案する自動化ツールの基礎を築いた。実現可能性をテストするため,開発者ワークフロー内の他のツールに容易に適応可能な,プロンプトギャップを検出する軽量なブラウザエクステンションプロトタイプを開発した。

関連論文リスト

Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文参考訳（メタデータ） (2025-07-28T23:50:09Z)
What Makes ChatGPT Effective for Software Issue Resolution? An Empirical Study of Developer-ChatGPT Conversations in GitHub [4.928297656574645]
GitHubイシュースレッド内で共有されている686人の開発者-ChatGPT会話を分析し、これらの会話を課題解決に効果的にする特徴を特定します。 ChatGPTはコード生成やツール/ライブラリ/APIレコメンデーションに最も効果的ですが、コード説明に苦労しています。問題レベルでは、ChatGPTは開発者のアクティビティが制限され、より高速な解像度で、より単純な問題に対して最善を尽くします。
論文参考訳（メタデータ） (2025-06-27T17:00:48Z)
Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models [51.47994645529258]
本稿では,問合せをGNNアグリゲーションに組み込んでKG関連性を動的に評価するQAP(QA-Aware Knowledge Graph Prompting)を提案する。実験の結果、QAPは複数のデータセットで最先端の手法よりも優れており、その有効性を強調している。
論文参考訳（メタデータ） (2025-03-30T17:09:11Z)
MINTQA: A Multi-Hop Question Answering Benchmark for Evaluating LLMs on New and Tail Knowledge [24.66666826440994]
MINTQAは、マルチホップ推論における大規模言語モデルの能力を評価するベンチマークである。 MINTQAは、新しい知識を評価するための10,479対の質問応答ペアと、長い知識を評価するための17,887対の質問応答ペアからなる。 MINTQA上での22の最先端LCMの体系的評価により,複雑な知識ベースクエリを扱う能力に重大な制限があることが判明した。
論文参考訳（メタデータ） (2024-12-22T14:17:12Z)
Bridging Context Gaps: Leveraging Coreference Resolution for Long Contextual Understanding [28.191029786204624]
大規模言語モデル(LLM)の性能向上を目的としたLong Question Coreference Adaptation (LQCA) 手法を提案する。このフレームワークは、長いコンテキストに合わせて調整されたコア参照解決に焦点を当てており、モデルが参照を効果的に識別し、管理することができる。私たちのコードはhttps://github.com/OceannTwT/LQCA.comで公開されています。
論文参考訳（メタデータ） (2024-10-02T15:39:55Z)
Knowledge Tagging System on Math Questions via LLMs with Flexible Demonstration Retriever [48.5585921817745]
大きな言語モデル(LLM)は知識タグ付けタスクを自動化するために使われる。算数問題における知識タグ付けタスクに対するゼロショットと少数ショットの結果の強い性能を示す。強化学習に基づくデモレトリバーの提案により,異なるサイズのLLMの潜在能力を活用できた。
論文参考訳（メタデータ） (2024-06-19T23:30:01Z)
Reasoning in Conversation: Solving Subjective Tasks through Dialogue Simulation for Large Language Models [56.93074140619464]
本稿では,対話シミュレーションによる主観的課題の解決に焦点を当てたRiC(Reasoning in Conversation)を提案する。 RiCのモチベーションは、チェーン・オブ・ソート・スタイルの合理性を提供するのではなく、対話をシミュレートすることで有用な文脈情報をマイニングすることである。 GPT-4、ChatGPT、OpenChatなど、APIベースのLLMとオープンソースのLLMの両方を12のタスクで評価する。
論文参考訳（メタデータ） (2024-02-27T05:37:10Z)
Exploring Interaction Patterns for Debugging: Enhancing Conversational Capabilities of AI-assistants [18.53732314023887]
大規模言語モデル(LLM)は、プログラマが様々なソフトウェア開発タスクの自然言語説明を得ることを可能にする。 LLMはしばしば十分な文脈なしに行動し、暗黙の仮定や不正確な反応を引き起こす。本稿では,対話パターンと会話分析からインスピレーションを得て,デバッグのための対話型AIアシスタントRobinを設計する。
論文参考訳（メタデータ） (2024-02-09T07:44:27Z)
Competition-Level Problems are Effective LLM Evaluators [121.15880285283116]
本稿では,Codeforcesにおける最近のプログラミング問題の解決において,大規模言語モデル(LLM)の推論能力を評価することを目的とする。まず,問題の発生時間,難易度,遭遇したエラーの種類など,様々な側面を考慮して,GPT-4の望ましくないゼロショット性能を総合的に評価する。驚くべきことに、GPT-4のTheThoughtivedのパフォーマンスは、2021年9月以降、あらゆる困難と種類の問題に対して一貫して問題が減少するような崖を経験している。
論文参考訳（メタデータ） (2023-12-04T18:58:57Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators [78.63553017938911]
大規模言語モデル(LLM)は、下流の知識集約タスクのための情報検索技術より優れている。しかし、コミュニティの懸念は、この無検閲の知識を使用することの事実と潜在的意味について多岐にわたる。本研究では,6つの重要な視点から生成した知識を評価するために設計されたCONNERを紹介する。
論文参考訳（メタデータ） (2023-10-11T08:22:37Z)
Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models [49.23348672822087]
構造化された事実制約に縛られた不完全な知識ネットワークからなるベンチマークである知識クロスワードを提案する。幾何学的知識推論の新しい設定は、既存の原子/線形マルチホップQAを超える新しいLM能力を必要とする。我々は,既存のLLMと知識クロスワードのアプローチを評価するために,広範囲な実験を行っている。
論文参考訳（メタデータ） (2023-10-02T15:43:53Z)
Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。 CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文参考訳（メタデータ） (2023-09-12T14:36:23Z)
Extending the Frontier of ChatGPT: Code Generation and Debugging [0.0]
OpenAIが開発したChatGPTは,さまざまな問題領域に取り組むために人工知能(AI)を活用することによって,新たな時代を迎えている。本稿では,ChatGPTのプログラミング問題に対する有効性について検討し,時間とメモリの複雑さの観点から,その解の正しさと効率性について検討する。この研究は、ChatGPTが正しいソリューションを提供することができた問題の割合を示すため、総成功率は71.875%であることを示した。
論文参考訳（メタデータ） (2023-07-17T06:06:58Z)
Using an LLM to Help With Code Understanding [13.53616539787915]
大規模言語モデル(LLM)は、コードを書くプロセスに革命をもたらしています。プラグインはOpenAIのGPT-3.5-turboモデルに対して,ユーザが明示的なプロンプトを書かなくても4つの高レベルリクエストをクエリする。本システムの評価は,32名の被験者を対象に行ったユーザスタディで行われ,本プラグインがWeb検索よりもタスク完了に有効であることが確認された。
論文参考訳（メタデータ） (2023-07-17T00:49:06Z)
PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts [76.18347405302728]
本研究は、文字、単語、文、意味といった複数のレベルにわたるプロンプトを標的とした、敵対的なテキスト攻撃を多用する。相手のプロンプトは、感情分析、自然言語推論、読書理解、機械翻訳、数学の問題解決など様々なタスクに使用される。以上の結果から,現代の大規模言語モデルでは,敵対的プロンプトに対して頑健ではないことが示唆された。
論文参考訳（メタデータ） (2023-06-07T15:37:00Z)
Employing Deep Learning and Structured Information Retrieval to Answer Clarification Questions on Bug Reports [3.462843004438096]
本稿では,CodeT5 と Lucene を併用して質問に対する回答を推薦する手法を提案する。我々は,正規化Smooth BLEUスコア, METEOR, Word Mover's Distance, Semantic similarity などの類似度指標を用いて,手動で注釈付き回答を評価した。
論文参考訳（メタデータ） (2023-04-24T23:29:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。