Fugu-MT 論文翻訳(概要): Towards Evaluation Guidelines for Empirical Studies involving LLMs

論文の概要: Towards Evaluation Guidelines for Empirical Studies involving LLMs

arxiv url: http://arxiv.org/abs/2411.07668v1
Date: Tue, 12 Nov 2024 09:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:46.863074
Title: Towards Evaluation Guidelines for Empirical Studies involving LLMs
Title（参考訳）: LLMを取り入れた実証研究のための評価ガイドラインの策定に向けて
Authors: Stefan Wagner, Marvin Muñoz Barón, Davide Falessi, Sebastian Baltes,
Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学の研究環境を変えました。本稿では,このような研究のガイドラインを初めて提示する。私たちのゴールは、LLMを含む高品質な実証研究において、私たちのコミュニティ標準が何であるかを共通理解するために、ソフトウェア工学研究コミュニティで議論を始めることです。
参考スコア（独自算出の注目度）: 6.174354685766166
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the short period since the release of ChatGPT in November 2022, large language models (LLMs) have changed the software engineering research landscape. While there are numerous opportunities to use LLMs for supporting research or software engineering tasks, solid science needs rigorous empirical evaluations. However, so far, there are no specific guidelines for conducting and assessing studies involving LLMs in software engineering research. Our focus is on empirical studies that either use LLMs as part of the research process (e.g., for data annotation) or studies that evaluate existing or new tools that are based on LLMs. This paper contributes the first set of guidelines for such studies. Our goal is to start a discussion in the software engineering research community to reach a common understanding of what our community standards are for high-quality empirical studies involving LLMs.
Abstract（参考訳）: 2022年11月にChatGPTがリリースされてから短期間で、大規模言語モデル(LLM)がソフトウェア工学研究の状況を変えた。研究やソフトウェア工学のタスクにLLMを使う機会はたくさんありますが、ソリッドサイエンスには厳密な経験的評価が必要です。しかし、今のところ、ソフトウェア工学研究におけるLLMに関する研究の実施と評価に関する具体的なガイドラインは存在しない。我々の焦点は、LLMを研究プロセスの一部として使用する経験的研究(例えば、データアノテーション)や、LLMに基づいた既存のツールや新しいツールを評価する研究である。本稿では,このような研究のガイドラインを初めて提示する。私たちのゴールは、LLMを含む高品質な実証研究において、私たちのコミュニティ標準が何であるかを共通理解するために、ソフトウェア工学研究コミュニティで議論を始めることです。

関連論文リスト

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment [291.03029298928857]
本稿では, LLM のトレーニング, 展開, 商業化のプロセス全体を通して, 安全問題を体系的に検討する "フルスタック" の安全性の概念を紹介する。我々の研究は800以上の論文を網羅的にレビューし、包括的カバレッジとセキュリティ問題の体系的な組織化を確保しています。本研究は,データ生成の安全性,アライメント技術,モデル編集,LLMベースのエージェントシステムなど,有望な研究方向を特定する。
論文参考訳（メタデータ） (2025-04-22T05:02:49Z)
LLM4SR: A Survey on Large Language Models for Scientific Research [15.533076347375207]
大きな言語モデル(LLM)は、研究サイクルの様々な段階にわたって前例のないサポートを提供する。本稿では,LLMが科学的研究プロセスにどのように革命をもたらすのかを探求する,最初の体系的な調査について述べる。
論文参考訳（メタデータ） (2025-01-08T06:44:02Z)
What is the Role of Large Language Models in the Evolution of Astronomy Research? [0.0]
ChatGPTや他の最先端の大規模言語モデル(LLM)は、急速に複数のフィールドを変換している。これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示す。
論文参考訳（メタデータ） (2024-09-30T12:42:25Z)
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文参考訳（メタデータ） (2024-08-05T14:01:15Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文参考訳（メタデータ） (2024-04-01T17:45:15Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
LLMs for Science: Usage for Code Generation and Data Analysis [0.07499722271664144]
大規模言語モデル (LLMs) は、今日の作業環境の多くの領域で生産性の向上を図っている。 LLMのポテンシャルが研究の実践においてどのように実現されるのかは、いまだ不明である。
論文参考訳（メタデータ） (2023-11-28T12:29:33Z)
A Survey on Large Language Model based Autonomous Agents [105.2509166861984]
大規模言語モデル(LLM)は、人間レベルの知性を達成する上で、顕著な可能性を示している。本稿では,LLMに基づく自律エージェントの分野を総合的な観点から体系的に検討する。本稿では、社会科学、自然科学、工学の分野におけるLLMベースの自律エージェントの多様な応用について概観する。
論文参考訳（メタデータ） (2023-08-22T13:30:37Z)
Towards an Understanding of Large Language Models in Software Engineering Tasks [29.30433406449331]
大規模言語モデル(LLM)は、テキスト生成や推論タスクにおける驚くべきパフォーマンスのために、広く注目を集め、研究している。コード生成などのソフトウェア工学タスクにおけるLLMの評価と最適化が研究の焦点となっている。本稿では,LLMとソフトウェア工学を組み合わせた研究・製品について包括的に検討・検討する。
論文参考訳（メタデータ） (2023-08-22T12:37:29Z)
A Comprehensive Overview of Large Language Models [68.22178313875618]
大規模言語モデル(LLM)は、最近自然言語処理タスクにおいて顕著な機能を示した。本稿では, LLM関連概念の幅広い範囲について, 既存の文献について概説する。
論文参考訳（メタデータ） (2023-07-12T20:01:52Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
A Bibliometric Review of Large Language Models Research from 2017 to 2023 [1.4190701053683017]
LLM(Large Language Model)は、自然言語処理(NLP)タスクにおいて優れた性能を示す言語モデルである。本稿は,LLM研究の現在の姿を知るための研究者,実践者,政策立案者のロードマップとして機能する。
論文参考訳（メタデータ） (2023-04-03T21:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。