論文の概要: Evaluation Guidelines for Empirical Studies in Software Engineering involving LLMs
- arxiv url: http://arxiv.org/abs/2508.15503v1
- Date: Thu, 21 Aug 2025 12:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.321065
- Title: Evaluation Guidelines for Empirical Studies in Software Engineering involving LLMs
- Title(参考訳): LLMを含むソフトウェア工学における実証研究のための評価ガイドライン
- Authors: Sebastian Baltes, Florian Angermeir, Chetan Arora, Marvin Muñoz Barón, Chunyang Chen, Lukas Böhme, Fabio Calefato, Neil Ernst, Davide Falessi, Brian Fitzgerald, Davide Fucci, Marcos Kalinowski, Stefano Lambiase, Daniel Russo, Mircea Lungu, Lutz Prechelt, Paul Ralph, Christoph Treude, Stefan Wagner,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学(SE)の研究と実践にますます統合されている。
我々は,この領域を包括するコミュニティの取り組みとして,LCMに基づく研究タイプの分類学と8つのガイドラインを紹介した。
このガイドラインは、研究プロセス全体を通して望まれる(すべき)基準と同様に、必須(必須)基準を示し、透明性を目標とする。
- 参考スコア(独自算出の注目度): 36.155100772188476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly being integrated into software engineering (SE) research and practice, yet their non-determinism, opaque training data, and evolving architectures complicate the reproduction and replication of empirical studies. We present a community effort to scope this space, introducing a taxonomy of LLM-based study types together with eight guidelines for designing and reporting empirical studies involving LLMs. The guidelines present essential (must) criteria as well as desired (should) criteria and target transparency throughout the research process. Our recommendations, contextualized by our study types, are: (1) to declare LLM usage and role; (2) to report model versions, configurations, and fine-tuning; (3) to document tool architectures; (4) to disclose prompts and interaction logs; (5) to use human validation; (6) to employ an open LLM as a baseline; (7) to report suitable baselines, benchmarks, and metrics; and (8) to openly articulate limitations and mitigations. Our goal is to enable reproducibility and replicability despite LLM-specific barriers to open science. We maintain the study types and guidelines online as a living resource for the community to use and shape (llm-guidelines.org).
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学(SE)の研究と実践にますます統合されているが、その非決定性、不透明なトレーニングデータ、進化するアーキテクチャは、経験的研究の再現と複製を複雑にしている。
我々は,この領域を包括するコミュニティの取り組みとして,LLMを取り入れた実証研究を設計・報告するための8つのガイドラインとともに,LLMに基づく研究タイプの分類を導入している。
このガイドラインは、研究プロセス全体を通して望まれる(すべき)基準と同様に、必須(必須)基準を示し、透明性を目標とする。
1) LLMの使用と役割の宣言,(2) モデルバージョン,構成,微調整の報告,(3) ツールアーキテクチャの文書化,(4) プロンプトとインタラクションログの開示,(5) 人間のバリデーションの利用,(6) オープンLCMをベースラインとして採用すること,(7) 適切なベースライン,ベンチマーク,メトリクスを報告すること,(8) 制限と緩和をオープンに表現すること。
我々の目標は、LLM特有のオープンサイエンスの障壁にもかかわらず、再現性と複製性を実現することです。
コミュニティが利用・形成するための生活資源(llm-guidelines.org)として,学習タイプとガイドラインをオンラインで維持する。
関連論文リスト
- Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [62.176497303000644]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - ELEVATE-GenAI: Reporting Guidelines for the Use of Large Language Models in Health Economics and Outcomes Research: an ISPOR Working Group on Generative AI Report [12.204470166456561]
この記事ではELEVATE GenAIフレームワークとチェックリストを紹介します。
このフレームワークは,既存の報告ガイドラインを対象とする文献レビューを通じて開発された。
モデルの特徴、正確性、公平性、偏見を含む10のドメインから構成される。
論文 参考訳(メタデータ) (2024-12-23T14:09:10Z) - Practical Considerations for Agentic LLM Systems [5.455744338342196]
本稿では、確立されたアプリケーションパラダイムの文脈における研究コミュニティからの実行可能な洞察と考察について述べる。
すなわち、アプリケーション中心の文献における一般的な実践に基づいて、関連する研究成果を4つの幅広いカテゴリ – プランニング、メモリツール、コントロールフロー – に位置づける。
論文 参考訳(メタデータ) (2024-12-05T11:57:49Z) - Towards Evaluation Guidelines for Empirical Studies involving LLMs [6.174354685766166]
大規模言語モデル(LLM)は、ソフトウェア工学の研究環境を変えました。
本稿では,このような研究の総括的ガイドラインを初めて提示する。
論文 参考訳(メタデータ) (2024-11-12T09:35:23Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。