論文の概要: Asking What Matters: Reward-Driven Clarification for Software Engineering Tasks
- arxiv url: http://arxiv.org/abs/2604.14624v1
- Date: Thu, 16 Apr 2026 05:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.731947
- Title: Asking What Matters: Reward-Driven Clarification for Software Engineering Tasks
- Title(参考訳): 何が重要なのかを問う - ソフトウェアエンジニアリングのタスクに対する逆行駆動の明確化
- Authors: Sanidhya Vijayvargiya, Vijay Viswanathan, Graham Neubig,
- Abstract要約: 我々は,どの情報がタスクの成功に最も影響するか,どの質問がシミュレーションユーザから有用な応答を引き出すのかを定量化する。
共有属性と分布比較を用いて,タスク関連性(成功を予測する情報)とユーザ応答性という,効果的な明確化の2つの重要な特性を同定する。
我々は,これらの特性を多段階強化学習報酬として運用し,GPT-5の分解能率と未特定問題との整合性を示す8Bパラメータ明確化モジュールであるCLARITIを訓練する。
- 参考スコア(独自算出の注目度): 49.47167381167488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans often specify tasks incompletely, so assistants must know when and how to ask clarifying questions. However, effective clarification remains challenging in software engineering tasks as not all missing information is equally valuable, and questions must target information users can realistically provide. We study clarification in real software engineering tasks by quantifying which types of information most affect task success and which questions elicit useful responses from simulated users. Using Shapley attribution and distributional comparisons, we identify two key properties of effective clarification: task relevance (which information predicts success) and user answerability (what users can realistically provide). We operationalize these properties as multi-stage reinforcement learning rewards to train CLARITI, an 8B-parameter clarification module, that matches GPT-5's resolution rate on underspecified issues while generating 41% fewer questions. Our results suggest that grounding reward design in empirical analysis of information impact and user answerability improves clarification efficiency.
- Abstract(参考訳): 人間はしばしばタスクを不完全に指定するので、アシスタントはいつ、どのように明確な質問をするかを知る必要がある。
しかしながら、ソフトウェアエンジニアリングのタスクにおいて効果的な明確化は、すべての欠落した情報が同等に価値があり、質問はユーザーが現実的に提供できる情報をターゲットにしなければならないため、依然として困難である。
本研究では,実際のソフトウェアエンジニアリングタスクにおいて,どの種類の情報がタスクの成功に最も影響するか,どの質問がシミュレーションユーザから有用な応答を引き出すのかを定量化する。
共有属性と分布比較を用いて,タスク関連性(成功を予測する情報)とユーザ応答性(ユーザが現実的に提供できる情報)という,効果的な明確化の2つの重要な特性を同定する。
我々は,これらの特性を多段階強化学習報酬として,GPT-5の解像度を未特定問題に適合させる8Bパラメータ明確化モジュールであるCLARITIを訓練し,41%の質問を発生させる。
この結果から,情報影響とユーザ応答性の実証分析におけるグラウンドディング報酬設計は,明確化の効率を向上させることが示唆された。
関連論文リスト
- Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - Exploring the Generalizability of Factual Hallucination Mitigation via Enhancing Precise Knowledge Utilization [49.95746521480879]
PKUE(Precise Knowledge utilization Enhancement, 精密知識利用促進)を導入し, 正確かつ単純な事実質問に対する自己生成応答のモデルを微調整する。
大規模な実験により、PKUEはLLM全体の性能を著しく改善することが示された。
論文 参考訳(メタデータ) (2025-02-26T13:34:52Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models [73.79091519226026]
Uncertainty of Thoughts (UoT) は、大きな言語モデルを拡張するアルゴリズムであり、効果的な質問をすることで積極的に情報を求めることができる。
医療診断、トラブルシューティング、および20の質問ゲームに関する実験において、UoTは、タスク完了の成功率において平均38.1%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-02-05T18:28:44Z) - Active Prompting with Chain-of-Thought for Large Language Models [26.5029080638055]
本稿では,大規模言語モデルを異なるタスクに適応させる新しい手法であるActive-Promptを提案する。
不確実性に基づくアクティブラーニングの関連問題からアイデアを借用することにより、不確実性を特徴づける指標をいくつか導入する。
実験により,提案手法の優位性を実証し,8つの複雑な推論タスクの最先端化を図った。
論文 参考訳(メタデータ) (2023-02-23T18:58:59Z) - A Dataset of Information-Seeking Questions and Answers Anchored in
Research Papers [66.11048565324468]
1,585の自然言語処理論文に関する5,049の質問のデータセットを提示する。
各質問は、対応する論文のタイトルと要約のみを読むNLP実践者によって書かれ、質問は全文に存在する情報を求めます。
他のQAタスクでうまく機能する既存のモデルは、これらの質問に答える上ではうまく機能せず、論文全体から回答する際には、少なくとも27 F1ポイントパフォーマンスが低下します。
論文 参考訳(メタデータ) (2021-05-07T00:12:34Z) - Review-guided Helpful Answer Identification in E-commerce [38.276241153439955]
製品固有のコミュニティ質問応答プラットフォームは、潜在的な顧客の懸念に対処するのに大いに役立ちます。
このようなプラットフォーム上でユーザが提供する回答は、その品質に大きく違いがあります。
コミュニティからのヘルプフルネスの投票は、回答の全体的な品質を示すことができるが、しばしば欠落している。
論文 参考訳(メタデータ) (2020-03-13T11:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。