論文の概要: Investigating the Use of LLMs for Evidence Briefings Generation in Software Engineering
- arxiv url: http://arxiv.org/abs/2507.15828v1
- Date: Mon, 21 Jul 2025 17:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.512596
- Title: Investigating the Use of LLMs for Evidence Briefings Generation in Software Engineering
- Title(参考訳): ソフトウェア工学におけるLCMを用いたエビデンスブリーフィング生成の検討
- Authors: Mauro Marcelino, Marcos Alves, Bianca Trinkenreich, Bruno Cartaxo, Sérgio Soares, Simone D. J. Barbosa, Marcos Kalinowski,
- Abstract要約: 証拠ブリーフィングを生成するためのRAGベースのLLMツールを開発した。
私たちはこのツールを使って、以前の研究で手作業で作成された2つの証拠ブリーフィングを自動生成しました。
我々は、LLM生成ブリーフィングが、認識された内容の忠実さ、理解しやすさ、有用性について、人間によるブリーフィングとどのように比較するかを評価するために、制御された実験を設計した。
- 参考スコア(独自算出の注目度): 6.641248974788795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: [Context] An evidence briefing is a concise and objective transfer medium that can present the main findings of a study to software engineers in the industry. Although practitioners and researchers have deemed Evidence Briefings useful, their production requires manual labor, which may be a significant challenge to their broad adoption. [Goal] The goal of this registered report is to describe an experimental protocol for evaluating LLM-generated evidence briefings for secondary studies in terms of content fidelity, ease of understanding, and usefulness, as perceived by researchers and practitioners, compared to human-made briefings. [Method] We developed an RAG-based LLM tool to generate evidence briefings. We used the tool to automatically generate two evidence briefings that had been manually generated in previous research efforts. We designed a controlled experiment to evaluate how the LLM-generated briefings compare to the human-made ones regarding perceived content fidelity, ease of understanding, and usefulness. [Results] To be reported after the experimental trials. [Conclusion] Depending on the experiment results.
- Abstract(参考訳): [文脈]エビデンスブリーフィング(エビデンスブリーフィング)とは,産業のソフトウェアエンジニアに研究の成果を提示できる簡潔で客観的な伝達媒体である。
実践者や研究者はエビデンス・ブリーフィングが有用であると考えているが、生産には手作業が必要であるため、広く採用する上で大きな課題となる可能性がある。
[目標]本報告の目的は,人間製ブリーフィングと比較して,研究者や実践者が認識する内容の忠実さ,理解の容易さ,有用性の観点から,二次研究のためのLCM生成証拠ブリーフィングを評価するための実験的プロトコルを記述することである。
[方法]証拠ブリーフィングを生成するRAGベースのLCMツールを開発した。
私たちはこのツールを使って、以前の研究で手作業で生成した2つのエビデンスブリーフィングを自動生成しました。
我々は、LLM生成ブリーフィングが、認識された内容の忠実さ、理解しやすさ、有用性について、人間によるブリーフィングとどのように比較するかを評価するために、制御された実験を設計した。
結果]実験の後に報告する。
[結論]実験結果による。
関連論文リスト
- Can AI Validate Science? Benchmarking LLMs for Accurate Scientific Claim $\
ightarrow$ Evidence Reasoning [6.043212666944194]
CLAIM-BENCHは,科学的クレームエビデンス抽出と検証において,大規模言語モデルの能力を評価するためのベンチマークである。
GPT-4やClaudeのようなクローズドソースモデルは、精度とリコールにおいて、オープンソースモデルよりも一貫して優れています。
戦略的に設計された3つのパスと1対1のプロンプトアプローチは、分散した証拠とクレームを正確にリンクするLSMの能力を大幅に向上させた。
論文 参考訳(メタデータ) (2025-06-09T21:04:39Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [56.08917291606421]
ResearchAgentは、新しい作品のアイデアと運用のためのAIベースのシステムである。
ResearchAgentは、新しい問題を自動で定義し、手法と設計実験を提案し、繰り返し修正する。
我々は、複数の分野にわたる科学論文に関するResearchAgentを実験的に検証した。
論文 参考訳(メタデータ) (2024-04-11T13:36:29Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Can LLMs Produce Faithful Explanations For Fact-checking? Towards
Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。
多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。
MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文 参考訳(メタデータ) (2024-02-12T04:32:33Z) - Training Language Models to Generate Text with Citations via Fine-grained Rewards [19.176465185343417]
大型言語モデル(LLM)は幻覚を起こす傾向があり、信頼できる情報源への参照が欠如しているため、その応答は信頼性に欠けることが多い。
本研究では,LLMに高い支援力と関連性のある引用を生成するための,微粒な報酬を用いた効果的な学習フレームワークを提案する。
LLaMA-2-7Bでは、細粒度の報酬がGPT-3.5-turboを上回り、ベースラインの中で最高の性能を達成している。
論文 参考訳(メタデータ) (2024-02-06T19:00:40Z) - From Prompt Engineering to Prompt Science With Human in the Loop [12.230632679443364]
本稿では、それに対応する定性的な方法を通じて、コードブック構築にインスパイアされた新しい方法論を提案する。
研究者の集合が、厳密なラベル付け、検討、文書化のプロセスを通じて、主観性を排除し、生成プロセスに透明性と複製性をもたらす方法を示します。
論文 参考訳(メタデータ) (2024-01-01T01:37:36Z) - Breaking the Silence: the Threats of Using LLMs in Software Engineering [12.368546216271382]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)コミュニティ内で大きな注目を集めています。
本稿では,LSMに基づく研究の有効性に対する潜在的な脅威について,オープンな議論を開始する。
論文 参考訳(メタデータ) (2023-12-13T11:02:19Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。