論文の概要: Reporting LLM Prompting in Automated Software Engineering: A Guideline Based on Current Practices and Expectations
- arxiv url: http://arxiv.org/abs/2601.01954v1
- Date: Mon, 05 Jan 2026 10:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.952654
- Title: Reporting LLM Prompting in Automated Software Engineering: A Guideline Based on Current Practices and Expectations
- Title(参考訳): 自動ソフトウェアエンジニアリングにおけるLCMプロンプトの報告:現状と期待に基づくガイドライン
- Authors: Alexander Korn, Lea Zaruchas, Chetan Arora, Andreas Metzger, Sven Smolka, Fanyu Wang, Andreas Vogelsang,
- Abstract要約: 大規模言語モデルは、ソフトウェアエンジニアリングタスクの自動化にますます使われています。
これらのモデルは自然言語のプロンプトを通じて導かれるため、システムパフォーマンスと振る舞いにおいて、迅速なエンジニアリングが重要な要素となる。
SE研究での役割が増大しているにもかかわらず、プロンプトに関連する決定は、体系的または透明な方法で文書化されることは滅多にない。
- 参考スコア(独自算出の注目度): 39.62249759297524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models, particularly decoder-only generative models such as GPT, are increasingly used to automate Software Engineering tasks. These models are primarily guided through natural language prompts, making prompt engineering a critical factor in system performance and behavior. Despite their growing role in SE research, prompt-related decisions are rarely documented in a systematic or transparent manner, hindering reproducibility and comparability across studies. To address this gap, we conducted a two-phase empirical study. First, we analyzed nearly 300 papers published at the top-3 SE conferences since 2022 to assess how prompt design, testing, and optimization are currently reported. Second, we surveyed 105 program committee members from these conferences to capture their expectations for prompt reporting in LLM-driven research. Based on the findings, we derived a structured guideline that distinguishes essential, desirable, and exceptional reporting elements. Our results reveal significant misalignment between current practices and reviewer expectations, particularly regarding version disclosure, prompt justification, and threats to validity. We present our guideline as a step toward improving transparency, reproducibility, and methodological rigor in LLM-based SE research.
- Abstract(参考訳): 大規模言語モデル、特にGPTのようなデコーダのみの生成モデルは、ソフトウェア工学タスクの自動化にますます使われています。
これらのモデルは、主に自然言語のプロンプトを通して導かれるため、システムパフォーマンスと振る舞いにおいて、迅速なエンジニアリングが重要な要素となる。
SE研究での役割が増大しているにもかかわらず、プロンプトに関連する決定は、体系的または透明な方法で文書化されることはめったになく、研究間の再現性と可視性を妨げている。
このギャップに対処するため、我々は2段階の実験的研究を行った。
まず、2022年以降、トップ3のSEカンファレンスで発行された300近い論文を分析し、現在どのように設計、テスト、最適化が報告されているかを評価しました。
第2に、これらの会議から105人のプログラム委員会メンバーを調査し、LCM主導の研究における迅速な報告に対する期待を捉えた。
本研究は,本質的,望ましい,例外的な報告要素を識別する構造的ガイドラインを導出した。
本結果から,現行の実践とレビュアーの期待の相違,特にバージョン開示,迅速な正当化,妥当性への脅威が明らかとなった。
LLMをベースとしたSE研究における透明性,再現性,方法論的厳密性の向上に向けた第一歩として,本ガイドラインを提示する。
関連論文リスト
- Large Language Models (LLMs) for Requirements Engineering (RE): A Systematic Literature Review [2.0061679654181392]
本研究は,出版動向,RE活動,促進戦略,評価方法など,諸次元の文献を分類する。
研究の多くは、欠陥検出や分類よりも、要件の適用と検証にLLMを使うことに重点を置いている。
問題追跡システム、規制、技術マニュアルなど、他のアーティファクトもますます検討されている。
論文 参考訳(メタデータ) (2025-09-14T21:45:01Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z) - Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。
我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文 参考訳(メタデータ) (2024-05-16T20:27:58Z) - Generative transformations and patterns in LLM-native approaches for software verification and falsification [1.4595796095047369]
より規律のあるエンジニアリングプラクティスに向けた基本的なステップは、コア機能単位生成変換の体系的な理解である、と我々は主張する。
まず、素早い相互作用を概念的シグネチャに抽象化する、生成変換のきめ細かい分類法を提案する。
我々の分析は分類学の有用性を検証するだけでなく、戦略的ギャップや相互関係も明らかにする。
論文 参考訳(メタデータ) (2024-04-14T23:45:23Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - How Effective are Large Language Models in Generating Software Specifications? [14.170320751508502]
大規模言語モデル(LLM)は多くのソフトウェア工学(SE)タスクにうまく適用されている。
ソフトウェアコメントやドキュメンテーションからソフトウェア仕様を生成するためのLCMの能力を評価するための、最初の実証的研究を行う。
論文 参考訳(メタデータ) (2023-06-06T00:28:39Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。