論文の概要: Creating optimal conditions for reproducible data analysis in R with
'fertile'
- arxiv url: http://arxiv.org/abs/2008.12098v1
- Date: Tue, 18 Aug 2020 18:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 22:38:51.822032
- Title: Creating optimal conditions for reproducible data analysis in R with
'fertile'
- Title(参考訳): Rの再現可能データ解析のための最適条件の作成
- Authors: Audrey M. Bertin, Benjamin S. Baumer
- Abstract要約: fertileはRパッケージで、Rでデータサイエンスプロジェクトを行っている間、プログラマが犯す一連のよくあるミスに焦点を当てている。
fertileは2つのモードで機能する。
ミスがなぜ問題なのか、どのように修正するかについて、ユーザを教育するように設計されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of scientific knowledge increasingly depends on ensuring that
data-driven research is reproducible: that two people with the same data obtain
the same results. However, while the necessity of reproducibility is clear,
there are significant behavioral and technical challenges that impede its
widespread implementation, and no clear consensus on standards of what
constitutes reproducibility in published research. We present fertile, an R
package that focuses on a series of common mistakes programmers make while
conducting data science projects in R, primarily through the RStudio integrated
development environment. fertile operates in two modes: proactively (to prevent
reproducibility mistakes from happening in the first place), and retroactively
(analyzing code that is already written for potential problems). Furthermore,
fertile is designed to educate users on why their mistakes are problematic and
how to fix them.
- Abstract(参考訳): 科学知識の進歩は、データ駆動型研究が再現可能であることの保証にますます依存し、同じデータを持つ2人が同じ結果を得る。
しかし、再現性の必要性は明らかであるが、その広範にわたる実施を妨げる重要な行動的・技術的課題があり、出版研究における再現性を構成する基準に関する明確なコンセンサスはない。
我々は、主にRStudio統合開発環境を通じて、Rでデータサイエンスプロジェクトを実施しながら、プログラマが犯す一連のよくあるミスに焦点を当てたRパッケージであるFerateを提示する。
fertileは2つのモードで動作します。(そもそも再現可能性のミスが起こらないように)プログレッシブに、そして(潜在的な問題のために書かれたコードを解析する)retroactiveです。
さらに、fertileは、ミスがなぜ問題なのか、どのように修正するかをユーザーに教えるように設計されている。
関連論文リスト
- Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference [11.31451429456241]
本研究は,(1)PPOと合成データを用いた質問の難易度向上手法,(2)人的評価を含む手法の有効性の実証的証拠,(3)詳細な誤り分析と創発現象の研究に寄与する。
論文 参考訳(メタデータ) (2024-10-10T18:21:00Z) - Controlling Risk of Retrieval-augmented Generation: A Counterfactual Prompting Framework [77.45983464131977]
我々は、RAGモデルの予測が誤りであり、現実のアプリケーションにおいて制御不能なリスクをもたらす可能性がどの程度あるかに焦点を当てる。
本研究は,RAGの予測に影響を及ぼす2つの重要な潜伏要因を明らかにする。
我々は,これらの要因をモデルに誘導し,その応答に与える影響を解析する,反実的プロンプトフレームワークを開発した。
論文 参考訳(メタデータ) (2024-09-24T14:52:14Z) - Unsupervised Pairwise Causal Discovery on Heterogeneous Data using Mutual Information Measures [49.1574468325115]
因果発見(Causal Discovery)は、構成変数の統計的性質を分析することで、この問題に取り組む手法である。
教師付き学習によって得られたことに基づいて,現在の(おそらく誤解を招く)ベースライン結果に疑問を呈する。
その結果、堅牢な相互情報測定を用いて、教師なしの方法でこの問題にアプローチする。
論文 参考訳(メタデータ) (2024-08-01T09:11:08Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Investigating Reproducibility in Deep Learning-Based Software Fault
Prediction [16.25827159504845]
ますます複雑な機械学習モデルが急速に採用されるようになると、学者が文献で報告される結果を再現することがますます困難になる。
特に、適用されたディープラーニングモデルと評価方法論が適切に文書化されていない場合と、コードとデータが共有されていない場合である。
我々は,2019年から2022年にかけて,トップレベルのソフトウェアエンジニアリングカンファレンスにおいて,現在の文献を体系的にレビューし,56件の研究論文のレベルを検討した。
論文 参考訳(メタデータ) (2024-02-08T13:00:18Z) - Reveal to Revise: An Explainable AI Life Cycle for Iterative Bias
Correction of Deep Models [11.879170124003252]
最先端の機械学習モデルは、トレーニングデータに埋め込まれた急激な相関を学習することが多い。
これにより、これらのモデルを高い意思決定のためにデプロイする際のリスクが生じる。
そこで我々はReveal to Revise (R2R)を提案する。
論文 参考訳(メタデータ) (2023-03-22T15:23:09Z) - DR-VIDAL -- Doubly Robust Variational Information-theoretic Deep
Adversarial Learning for Counterfactual Prediction and Treatment Effect
Estimation on Real World Data [7.712429926730386]
因果深い学習は、個別化された治療効果を推定する伝統的な手法よりも改善された。
DR-VIDALは治療と結果の2つのジョイントモデルを組み合わせた新しい生成フレームワークである。
DR-VIDALは、合成および実世界のデータセットにおいて、他の生成的および生成的手法よりも優れた性能を達成する。
論文 参考訳(メタデータ) (2023-03-07T19:44:58Z) - ImDrug: A Benchmark for Deep Imbalanced Learning in AI-aided Drug
Discovery [79.08833067391093]
現実世界の医薬品のデータセットは、しばしば高度に不均衡な分布を示す。
ImDrugはオープンソースのPythonライブラリを備えたベンチマークで、4つの不均衡設定、11のAI対応データセット、54の学習タスク、16のベースラインアルゴリズムで構成されています。
ドラッグ発見パイプラインの幅広い範囲にまたがる問題やソリューションに対して、アクセス可能でカスタマイズ可能なテストベッドを提供する。
論文 参考訳(メタデータ) (2022-09-16T13:35:57Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z) - The worst of both worlds: A comparative analysis of errors in learning
from data in psychology and machine learning [17.336655978572583]
機械学習(ML)が誤診や複製の危機に直面しているという最近の懸念は、ML研究で公表された主張の一部が対面価値で評価できないことを示唆している。
教師付きMLにおける研究の関心事は、実験科学における複製危機と共通している。
論文 参考訳(メタデータ) (2022-03-12T18:26:24Z) - Federated Causal Discovery [74.37739054932733]
本稿では,DAG-Shared Federated Causal Discovery (DS-FCD) という勾配学習フレームワークを開発する。
ローカルデータに直接触れることなく因果グラフを学習し、データの不均一性を自然に扱うことができる。
合成および実世界の両方のデータセットに対する大規模な実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2021-12-07T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。