論文の概要: Towards an OSF-based Registered Report Template for Software Engineering Controlled Experiments
- arxiv url: http://arxiv.org/abs/2602.09292v1
- Date: Tue, 10 Feb 2026 00:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.293085
- Title: Towards an OSF-based Registered Report Template for Software Engineering Controlled Experiments
- Title(参考訳): ソフトウェア工学制御実験のためのOSFベースの登録レポートテンプレートの実現に向けて
- Authors: Ana B. M. Bett, Thais S. Nepomuceno, Edson OliveiraJr, Maria Teresa Baldassarre, Valdemar V. Graciano Neto, Marcos Kalinowski,
- Abstract要約: 登録報告書(RR)は、これらの問題に対処するためにESEコミュニティで議論されている。
RRは、実行前に研究の仮説、方法、および/または分析を登録する。
これは、p-hacking、パブリッシュバイアス、不適切なポストホック分析などの問題的なプラクティスを軽減するのに役立つ。
- 参考スコア(独自算出の注目度): 2.6866713706946252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: The empirical software engineering (ESE) community has contributed to improving experimentation over the years. However, there is still a lack of rigor in describing controlled experiments, hindering reproducibility and transparency. Registered Reports (RR) have been discussed in the ESE community to address these issues. A RR registers a study's hypotheses, methods, and/or analyses before execution, involving peer review and potential acceptance before data collection. This helps mitigate problematic practices such as p-hacking, publication bias, and inappropriate post hoc analysis. Objective: This paper presents initial results toward establishing an RR template for Software Engineering controlled experiments using the Open Science Framework (OSF). Method: We analyzed templates of selected OSF RR types in light of documentation guidelines for controlled experiments. Results: The observed lack of rigor motivated our investigation of OSF-based RR types. Our analysis showed that, although one of the RR types aligned with many of the documentation suggestions contained in the guidelines, none of them covered the guidelines comprehensively. The study also highlights limitations in OSF RR template customization. Conclusion: Despite progress in ESE, planning and documenting experiments still lack rigor, compromising reproducibility. Adopting OSF-based RRs is proposed. However, no currently available RR type fully satisfies the guidelines. Establishing RR-specific guidelines for SE is deemed essential.
- Abstract(参考訳): コンテキスト: 経験的ソフトウェアエンジニアリング(ESE)コミュニティは、長年にわたって実験の改善に貢献してきました。
しかし、制御された実験の記述には厳密さが欠けており、再現性と透明性を妨げている。
登録報告書(RR)は、これらの問題に対処するためにESEコミュニティで議論されている。
RRは、実行前に研究の仮説、方法、および/または分析を登録し、データ収集の前にピアレビューと潜在的受け入れを含む。
これは、p-hacking、パブリッシュバイアス、不適切なポストホック分析などの問題的なプラクティスを軽減するのに役立つ。
目的:本論文は,OSF(Open Science Framework)を用いたソフトウェア工学制御実験のためのRRテンプレートの確立に向けた最初の成果を示す。
方法: 制御実験のためのドキュメンテーションガイドラインに基づき, 選択したOSF RRのテンプレートを解析した。
結果: 厳密さの欠如はOSFをベースとしたRR型の調査の動機となった。
我々の分析では、RRタイプの1つがガイドラインに含まれるドキュメント提案の多くと一致しているが、ガイドラインを包括的にカバーすることはなかった。
この研究はまた、OSF RRテンプレートのカスタマイズの制限を強調している。
結論: ESEの進歩にもかかわらず、計画と文書化の実験はまだ厳密さを欠いている。
OSFベースのRRの採用が提案されている。
しかし、現在利用可能なRR型はガイドラインを完全に満たしていない。
SEのRR固有のガイドラインの確立は不可欠であると考えられる。
関連論文リスト
- KAQG: A Knowledge-Graph-Enhanced RAG for Difficulty-Controlled Question Generation [0.0]
本研究は知識強化質問生成(KAQG)を紹介する。
項目応答理論(IRT)、ブルームの分類学、知識グラフをマルチエージェント検索拡張生成システムに統合する。
提案手法は, 項目難易度, 心理測定校正, 認知アライメントのきめ細かい制御を可能にすることによって, 既存の手法の限界を克服する。
論文 参考訳(メタデータ) (2025-05-12T14:42:19Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - A Reproducible Analysis of Sequential Recommender Systems [13.987953631479662]
SequentialEnsurer Systems (SRS) はレコメンデーションシステムに対する高度に効率的なアプローチとして登場した。
既存の作品では、結果の複製性の欠点が示されており、論文間の矛盾した記述につながっている。
当社の作業は、データ前処理とモデル実装の標準化によって、これらのギャップを埋めます。
論文 参考訳(メタデータ) (2024-08-07T16:23:29Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文 参考訳(メタデータ) (2021-06-30T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。