論文の概要: Towards an OSF-based Registered Report Template for Software Engineering Controlled Experiments
- arxiv url: http://arxiv.org/abs/2602.09292v1
- Date: Tue, 10 Feb 2026 00:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.293085
- Title: Towards an OSF-based Registered Report Template for Software Engineering Controlled Experiments
- Title(参考訳): ソフトウェア工学制御実験のためのOSFベースの登録レポートテンプレートの実現に向けて
- Authors: Ana B. M. Bett, Thais S. Nepomuceno, Edson OliveiraJr, Maria Teresa Baldassarre, Valdemar V. Graciano Neto, Marcos Kalinowski,
- Abstract要約: 登録報告書(RR)は、これらの問題に対処するためにESEコミュニティで議論されている。
RRは、実行前に研究の仮説、方法、および/または分析を登録する。
これは、p-hacking、パブリッシュバイアス、不適切なポストホック分析などの問題的なプラクティスを軽減するのに役立つ。
- 参考スコア(独自算出の注目度): 2.6866713706946252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Context: The empirical software engineering (ESE) community has contributed to improving experimentation over the years. However, there is still a lack of rigor in describing controlled experiments, hindering reproducibility and transparency. Registered Reports (RR) have been discussed in the ESE community to address these issues. A RR registers a study's hypotheses, methods, and/or analyses before execution, involving peer review and potential acceptance before data collection. This helps mitigate problematic practices such as p-hacking, publication bias, and inappropriate post hoc analysis. Objective: This paper presents initial results toward establishing an RR template for Software Engineering controlled experiments using the Open Science Framework (OSF). Method: We analyzed templates of selected OSF RR types in light of documentation guidelines for controlled experiments. Results: The observed lack of rigor motivated our investigation of OSF-based RR types. Our analysis showed that, although one of the RR types aligned with many of the documentation suggestions contained in the guidelines, none of them covered the guidelines comprehensively. The study also highlights limitations in OSF RR template customization. Conclusion: Despite progress in ESE, planning and documenting experiments still lack rigor, compromising reproducibility. Adopting OSF-based RRs is proposed. However, no currently available RR type fully satisfies the guidelines. Establishing RR-specific guidelines for SE is deemed essential.
- Abstract(参考訳): コンテキスト: 経験的ソフトウェアエンジニアリング(ESE)コミュニティは、長年にわたって実験の改善に貢献してきました。
しかし、制御された実験の記述には厳密さが欠けており、再現性と透明性を妨げている。
登録報告書(RR)は、これらの問題に対処するためにESEコミュニティで議論されている。
RRは、実行前に研究の仮説、方法、および/または分析を登録し、データ収集の前にピアレビューと潜在的受け入れを含む。
これは、p-hacking、パブリッシュバイアス、不適切なポストホック分析などの問題的なプラクティスを軽減するのに役立つ。
目的:本論文は,OSF(Open Science Framework)を用いたソフトウェア工学制御実験のためのRRテンプレートの確立に向けた最初の成果を示す。
方法: 制御実験のためのドキュメンテーションガイドラインに基づき, 選択したOSF RRのテンプレートを解析した。
結果: 厳密さの欠如はOSFをベースとしたRR型の調査の動機となった。
我々の分析では、RRタイプの1つがガイドラインに含まれるドキュメント提案の多くと一致しているが、ガイドラインを包括的にカバーすることはなかった。
この研究はまた、OSF RRテンプレートのカスタマイズの制限を強調している。
結論: ESEの進歩にもかかわらず、計画と文書化の実験はまだ厳密さを欠いている。
OSFベースのRRの採用が提案されている。
しかし、現在利用可能なRR型はガイドラインを完全に満たしていない。
SEのRR固有のガイドラインの確立は不可欠であると考えられる。
関連論文リスト
- Conformal novelty detection with false discovery rate control at the boundary [3.10490198369453]
コンフォーマルノベルティ検出は古典的な機械学習タスクである。
近年の研究では、共形p値に適用されたBH法が偽発見率(FDR)を制御することが示されている。
論文 参考訳(メタデータ) (2026-01-06T00:02:03Z) - KAQG: A Knowledge-Graph-Enhanced RAG for Difficulty-Controlled Question Generation [0.0]
本研究は知識強化質問生成(KAQG)を紹介する。
項目応答理論(IRT)、ブルームの分類学、知識グラフをマルチエージェント検索拡張生成システムに統合する。
提案手法は, 項目難易度, 心理測定校正, 認知アライメントのきめ細かい制御を可能にすることによって, 既存の手法の限界を克服する。
論文 参考訳(メタデータ) (2025-05-12T14:42:19Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Evaluation of Deformable Image Registration under Alignment-Regularity Trade-off [21.451832779921265]
変形可能な画像登録(DIR)は、高いアライメント精度を達成することと変形規則性を維持することの間の本質的にトレードオフがあるため、難しい。
そこで本稿では,DIR手法を全体評価するために,トレードオフを連続的に捕捉する評価手法を提案する。
論文 参考訳(メタデータ) (2025-03-10T11:10:35Z) - LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - A Reproducible Analysis of Sequential Recommender Systems [13.987953631479662]
SequentialEnsurer Systems (SRS) はレコメンデーションシステムに対する高度に効率的なアプローチとして登場した。
既存の作品では、結果の複製性の欠点が示されており、論文間の矛盾した記述につながっている。
当社の作業は、データ前処理とモデル実装の標準化によって、これらのギャップを埋めます。
論文 参考訳(メタデータ) (2024-08-07T16:23:29Z) - Retrieved In-Context Principles from Previous Mistakes [55.109234526031884]
In-context Learning (ICL) は、入力出力の正しい例を用いて、下流のタスクにLarge Language Models (LLM) を適用するのに役立っている。
近年の進歩は、ミスから派生した原則により、モデルパフォーマンスの改善を試みている。
本稿では,新しい教師学習フレームワークであるRetrieved In-Context Principles (RICP)を提案する。
論文 参考訳(メタデータ) (2024-07-08T07:32:26Z) - Face4RAG: Factual Consistency Evaluation for Retrieval Augmented Generation in Chinese [3.724862061593193]
従来の検索時拡張世代(RAG)における事実整合性エラーの大きな問題は、FCE(Factual Consistency Evaluation)の研究を動機づけている
我々は,基礎となるLarge Language Models (LLM) に依存しないRAGのための,最初の総合的なFCEベンチマークemphFace4RAGを提案する。
提案するベンチマークでは,既存のFCE手法が論理的誤りを検出できないことを発見した。
論文 参考訳(メタデータ) (2024-07-01T08:35:04Z) - Adaptive Experimentation When You Can't Experiment [55.86593195947978]
本稿では,Emphcon founded the pure exploration transductive linear bandit (textttCPET-LB) problem。
オンラインサービスは、ユーザーを特定の治療にインセンティブを与える、適切にランダム化された励ましを利用することができる。
論文 参考訳(メタデータ) (2024-06-15T20:54:48Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - The MultiBERTs: BERT Reproductions for Robustness Analysis [86.29162676103385]
事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
論文 参考訳(メタデータ) (2021-06-30T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。