論文の概要: A multi-language toolkit for supporting automated checking of research outputs
- arxiv url: http://arxiv.org/abs/2212.02935v2
- Date: Mon, 2 Sep 2024 20:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 23:05:43.420319
- Title: A multi-language toolkit for supporting automated checking of research outputs
- Title(参考訳): 研究成果の自動チェックを支援する多言語ツールキット
- Authors: Richard J. Preen, Maha Albashir, Simon Davy, Jim Smith,
- Abstract要約: acroは、公開が安全な研究出力、さらなる分析を必要とする出力、プライベートデータを開示する重大なリスクを生じるため公開できない出力の2つを区別する。
これは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量Pythonラッパーを使用することで実現される。
- 参考スコア(独自算出の注目度): 0.44998333629984877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article presents the automatic checking of research outputs package acro, which assists researchers and data governance teams by automatically applying best-practice principles-based statistical disclosure control (SDC) techniques on-the-fly as researchers conduct their analyses. acro distinguishes between: research output that is safe to publish; output that requires further analysis; and output that cannot be published because it creates substantial risk of disclosing private data. This is achieved through the use of a lightweight Python wrapper that sits over well-known analysis tools that produce outputs such as tables, plots, and statistical models. This adds functionality to (i) identify potentially disclosive outputs against a range of commonly used disclosure tests; (ii) apply disclosure mitigation strategies where required; (iii) report reasons for applying SDC; and (iv) produce simple summary documents trusted research environment staff can use to streamline their workflow. The major analytical programming languages used by researchers are supported: Python, R, and Stata. The acro code and documentation are available under an MIT license at https://github.com/AI-SDC/ACRO
- Abstract(参考訳): 本稿では、研究者が分析を行う際に、最良の原則に基づく統計開示制御(SDC)技術を自動的に適用することにより、研究者やデータガバナンスチームを支援する研究成果自動チェックパッケージアクロを提案する。
acroは、公開が安全な研究出力、さらなる分析を必要とする出力、プライベートデータを開示する重大なリスクを生じるため公開できない出力の2つを区別する。
これは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量Pythonラッパーを使用することで実現される。
これにより機能が追加される。
i) 一般的に使用される開示試験の範囲に対して潜在的な開示出力を識別すること。
二 必要なときは開示緩和戦略を適用すること。
三) SDCの適用理由の報告及び
(4)信頼性のある研究環境のスタッフがワークフローの合理化に利用できる簡単な要約文書を作成する。
研究者が使用する主要な分析プログラミング言語は、Python、R、Staである。
acroコードとドキュメントはMITライセンスでhttps://github.com/AI-SDC/ACROで公開されている。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - SyROCCo: Enhancing Systematic Reviews using Machine Learning [6.805429133535976]
本稿では,システムレビュープロセスのナビゲートを支援する機械学習技術について検討する。
データ抽出やエビデンスマッピングといったレビューのその後の段階へのML技術の適用は、その初期段階にある。
論文 参考訳(メタデータ) (2024-06-24T11:04:43Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - PyRCA: A Library for Metric-based Root Cause Analysis [66.72542200701807]
PyRCAは、AIOps(AIOps)のためのRoot Cause Analysis(RCA)のオープンソースの機械学習ライブラリである。
複雑なメトリクス因果依存性を明らかにし、インシデントの根本原因を自動的に特定する、包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-20T09:55:10Z) - Packaging code for reproducible research in the public sector [0.0]
jtstatsプロジェクトは、大規模で複雑なデータセットをインポート、処理、視覚化するためのRとPythonパッケージで構成されている。
Jtstatsは、パブリックセクター内外において、ドメイン固有のパッケージが再現可能な研究を可能にする方法を示している。
論文 参考訳(メタデータ) (2023-05-25T16:07:24Z) - Methodology to Create Analysis-Naive Holdout Records as well as Train
and Test Records for Machine Learning Analyses in Healthcare [0.0]
ホルトアウトサンプルの目的は、全データセットから分析的かつランダムに選択される研究研究のためのデータを保存することである。
ホールドアウトを作成するための方法論は、ランダム化を考慮し、3方向分割を効率的に行うk倍のクロスバリデーションの修正である。
論文 参考訳(メタデータ) (2022-05-09T00:51:08Z) - DRIFT: A Toolkit for Diachronic Analysis of Scientific Literature [0.7349727826230862]
DRIFTをオープンソースとして公開し、研究者が長年の研究動向と開発を追跡できるようにしました。
分析手法は、よく暗唱された研究成果と照合され、我々のいくつかの方法が良い測定のために追加されている。
本ツールの有用性と有効性を示すため,arXivリポジトリのcs.CLコーパスのケーススタディを行い,解析手法から推論を行う。
論文 参考訳(メタデータ) (2021-07-02T17:33:25Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。