Fugu-MT 論文翻訳(概要): Can Machine Learning Support the Selection of Studies for Systematic Literature Review Updates?

論文の概要: Can Machine Learning Support the Selection of Studies for Systematic Literature Review Updates?

arxiv url: http://arxiv.org/abs/2502.08050v1
Date: Wed, 12 Feb 2025 01:13:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-13 18:10:00.829456
Title: Can Machine Learning Support the Selection of Studies for Systematic Literature Review Updates?
Title（参考訳）: 機械学習は、体系的な文献レビュー更新のための研究の選択を支援することができるか?
Authors: Marcelo Costalonga, Bianca Minetto Napoleão, Maria Teresa Baldassarre, Katia Romero Felizardo, Igor Steinmacher, Marcos Kalinowski,
Abstract要約: ソフトウェア工学(SE)における証拠の合成には体系的文献レビュー(SLR)が不可欠である本研究の目的は,機械学習(ML)テキスト分類モデルが,SLR更新のための研究選択において,レビュアーをサポートすることができるかどうかを評価することである。
参考スコア（独自算出の注目度）: 12.89869400063012
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: [Background] Systematic literature reviews (SLRs) are essential for synthesizing evidence in Software Engineering (SE), but keeping them up-to-date requires substantial effort. Study selection, one of the most labor-intensive steps, involves reviewing numerous studies and requires multiple reviewers to minimize bias and avoid loss of evidence. [Objective] This study aims to evaluate if Machine Learning (ML) text classification models can support reviewers in the study selection for SLR updates. [Method] We reproduce the study selection of an SLR update performed by three SE researchers. We trained two supervised ML models (Random Forest and Support Vector Machines) with different configurations using data from the original SLR. We calculated the study selection effectiveness of the ML models for the SLR update in terms of precision, recall, and F-measure. We also compared the performance of human-ML pairs with human-only pairs when selecting studies. [Results] The ML models achieved a modest F-score of 0.33, which is insufficient for reliable automation. However, we found that such models can reduce the study selection effort by 33.9% without loss of evidence (keeping a 100% recall). Our analysis also showed that the initial screening by pairs of human reviewers produces results that are much better aligned with the final SLR update result. [Conclusion] Based on our results, we conclude that although ML models can help reduce the effort involved in SLR updates, achieving rigorous and reliable outcomes still requires the expertise of experienced human reviewers for the initial screening phase.
Abstract（参考訳）: [背景]ソフトウェア工学(SE)における証拠の合成には体系的文献レビュー(SLR)が不可欠ですが、それらを最新に保つにはかなりの努力が必要です。研究選択は、最も労働集約的なステップの1つであり、多くの研究を見直し、バイアスを最小限に抑え、証拠の喪失を避けるために複数のレビュアーを必要とする。 [目的]本研究は,機械学習(ML)テキスト分類モデルが,SLR更新のための研究選択において,レビュアーを支援することができるかどうかを評価することを目的とする。 [方法]3人のSE研究者によるSLR更新の学習選択を再現する。我々は、オリジナルのSLRのデータを用いて、2つの教師付きMLモデル(Random ForestとSupport Vector Machines)を異なる構成で訓練した。我々は,SLR更新のためのMLモデルの精度,リコール,F尺度による学習効率を算出した。また,人間のみのペアと人間のみのペアを選択実験で比較した。結果]MLモデルは,信頼性の高い自動化には不十分な,控えめなFスコア0.33を達成した。しかし,このようなモデルでは,証拠の喪失(100%のリコール)を伴わずに,研究選択の労力を33.9%削減できることがわかった。また,2組の人間レビュアーによる初期スクリーニングにより,最終的なSLR更新結果と一致した結果が得られた。結論]MLモデルは,SLR更新に関わる労力を削減する上で有効であるが,厳格かつ信頼性の高い結果を達成するためには,初期スクリーニングフェーズにおいて経験豊富な人間レビュアーの専門知識が必要である,と結論づける。

関連論文リスト

Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models [83.8639566087953]
本稿では,2つの主要コンポーネントのエンドツーエンドトレーニングを可能にするDROという,直接検索拡張最適化フレームワークを提案する。 DROは、 (i) 文書置換推定と (ii) 再重み付けされ、段階的に改善されたRAGコンポーネントの2つのフェーズの間で交代する。理論解析により,DROは強化学習における政策段階的な手法に類似していることが明らかとなった。
論文参考訳（メタデータ） (2025-05-05T23:54:53Z)
S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文参考訳（メタデータ） (2025-02-18T13:40:22Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
Automated Feedback in Math Education: A Comparative Analysis of LLMs for Open-Ended Responses [0.0]
本研究では,大規模言語モデル(LLM)が数学教育における自動フィードバックを促進する可能性を探究することを目的とする。我々は,Llamaの数学版であるMistralを採用し,このモデルを用いて,中学校数学問題に対する生徒の回答と教師によるフィードバックのデータセットを活用することによって,学生の反応を評価する。 2人の教師の判断を生かして,評価精度とフィードバックの質を評価する。
論文参考訳（メタデータ） (2024-10-29T16:57:45Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
Investigating Automatic Scoring and Feedback using Large Language Models [46.1232919707345]
本稿では,PEFTに基づく量子化モデルの有効性について検討する。その結果, 微調整LDMによる評価は精度が高く, 平均的に3%未満の誤差が得られた。
論文参考訳（メタデータ） (2024-05-01T16:13:54Z)
System for systematic literature review using multiple AI agents: Concept and an empirical evaluation [5.194208843843004]
本稿では,システム文献レビューの実施プロセスの完全自動化を目的とした,新しいマルチAIエージェントモデルを提案する。このモデルは、研究者がトピックを入力するユーザフレンドリーなインターフェースを介して動作する。関連する学術論文を検索するために使用される検索文字列を生成する。モデルはこれらの論文の要約を自律的に要約する。
論文参考訳（メタデータ） (2024-03-13T10:27:52Z)
Emerging Results on Automated Support for Searching and Selecting Evidence for Systematic Literature Review Updates [1.1153433121962064]
本稿では,ソフトウェア工学におけるSLR更新研究の検索と選択を支援する自動手法について述べる。我々は,機械学習(ML)アルゴリズムを用いて,雪玉探索技術を実行する自動化ツールのプロトタイプを開発し,SLR更新に関する関連する研究を選択することを支援する。
論文参考訳（メタデータ） (2024-02-07T23:39:20Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Machine Learning Data Suitability and Performance Testing Using Fault Injection Testing Framework [0.0]
本稿では,入力データ(FIUL-Data)テストフレームワークにおける望ましくない学習のためのフォールトインジェクションを提案する。データミュータは、さまざまな障害注入の影響に対して、MLシステムの脆弱性を探索する。本稿では, アンチセンスオリゴヌクレオチドの保持時間測定を含む分析化学データを用いて, フレームワークの評価を行った。
論文参考訳（メタデータ） (2023-09-20T12:58:35Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。