論文の概要: A multi-language toolkit for supporting automated checking of research outputs
- arxiv url: http://arxiv.org/abs/2212.02935v2
- Date: Mon, 2 Sep 2024 20:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 23:05:43.420319
- Title: A multi-language toolkit for supporting automated checking of research outputs
- Title(参考訳): 研究成果の自動チェックを支援する多言語ツールキット
- Authors: Richard J. Preen, Maha Albashir, Simon Davy, Jim Smith,
- Abstract要約: acroは、公開が安全な研究出力、さらなる分析を必要とする出力、プライベートデータを開示する重大なリスクを生じるため公開できない出力の2つを区別する。
これは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量Pythonラッパーを使用することで実現される。
- 参考スコア(独自算出の注目度): 0.44998333629984877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article presents the automatic checking of research outputs package acro, which assists researchers and data governance teams by automatically applying best-practice principles-based statistical disclosure control (SDC) techniques on-the-fly as researchers conduct their analyses. acro distinguishes between: research output that is safe to publish; output that requires further analysis; and output that cannot be published because it creates substantial risk of disclosing private data. This is achieved through the use of a lightweight Python wrapper that sits over well-known analysis tools that produce outputs such as tables, plots, and statistical models. This adds functionality to (i) identify potentially disclosive outputs against a range of commonly used disclosure tests; (ii) apply disclosure mitigation strategies where required; (iii) report reasons for applying SDC; and (iv) produce simple summary documents trusted research environment staff can use to streamline their workflow. The major analytical programming languages used by researchers are supported: Python, R, and Stata. The acro code and documentation are available under an MIT license at https://github.com/AI-SDC/ACRO
- Abstract(参考訳): 本稿では、研究者が分析を行う際に、最良の原則に基づく統計開示制御(SDC)技術を自動的に適用することにより、研究者やデータガバナンスチームを支援する研究成果自動チェックパッケージアクロを提案する。
acroは、公開が安全な研究出力、さらなる分析を必要とする出力、プライベートデータを開示する重大なリスクを生じるため公開できない出力の2つを区別する。
これは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量Pythonラッパーを使用することで実現される。
これにより機能が追加される。
i) 一般的に使用される開示試験の範囲に対して潜在的な開示出力を識別すること。
二 必要なときは開示緩和戦略を適用すること。
三) SDCの適用理由の報告及び
(4)信頼性のある研究環境のスタッフがワークフローの合理化に利用できる簡単な要約文書を作成する。
研究者が使用する主要な分析プログラミング言語は、Python、R、Staである。
acroコードとドキュメントはMITライセンスでhttps://github.com/AI-SDC/ACROで公開されている。
関連論文リスト
- RobPy: a Python Package for Robust Statistical Methods [1.2233362977312945]
RobPyはPythonで幅広い堅牢なメソッドを提供し、NumPy、SciPy、Scikit-learnといった既存のライブラリ上に構築されている。
本稿では、RobPyパッケージの構造を示し、実例を通してその機能を実証し、その機能を他の統計ソフトウェアにおける既存の実装と比較する。
論文 参考訳(メタデータ) (2024-11-04T10:27:30Z) - forester: A Tree-Based AutoML Tool in R [0.0]
ForesterはオープンソースのAutoMLパッケージで、Rで実装され、高品質なツリーベースのモデルをトレーニングする。
バイナリとマルチクラスの分類、回帰、部分生存分析タスクを完全にサポートする。
データ品質に関する問題を検出し、前処理パイプラインを準備し、ツリーベースのモデルのトレーニングとチューニングを行い、結果を評価し、さらなる分析のためにレポートを作成することができる。
論文 参考訳(メタデータ) (2024-09-07T10:39:10Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Quantitative Assurance and Synthesis of Controllers from Activity
Diagrams [4.419843514606336]
確率的モデル検査は、定性的および定量的な性質を自動検証するために広く用いられている形式的検証手法である。
これにより、必要な知識を持っていない研究者やエンジニアにはアクセスできない。
本稿では,確率時間の新しいプロファイル,品質アノテーション,3つのマルコフモデルにおけるADの意味論的解釈,アクティビティ図からPRISM言語への変換ルールのセットなど,ADの総合的な検証フレームワークを提案する。
最も重要なことは、モデルをベースとした手法を用いて、完全自動検証のための変換アルゴリズムを開発し、QASCADと呼ばれるツールで実装したことです。
論文 参考訳(メタデータ) (2024-02-29T22:40:39Z) - A Semi-Automated Solution Approach Recommender for a Given Use Case: a Case Study for AI/ML in Oncology via Scopus and OpenAI [0.6749750044497732]
提案するツールであるSARBOLD-LLMは,与えられた問題に関連するメソッドの発見と選択を可能にする。
意思決定の洞察を導き出すために、文学における彼らの使用に関する追加情報を提供する。
調査を最初に行う方法を選択し、調査を補完する上で有用なツールである。
論文 参考訳(メタデータ) (2023-07-10T14:07:28Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Methodology to Create Analysis-Naive Holdout Records as well as Train
and Test Records for Machine Learning Analyses in Healthcare [0.0]
ホルトアウトサンプルの目的は、全データセットから分析的かつランダムに選択される研究研究のためのデータを保存することである。
ホールドアウトを作成するための方法論は、ランダム化を考慮し、3方向分割を効率的に行うk倍のクロスバリデーションの修正である。
論文 参考訳(メタデータ) (2022-05-09T00:51:08Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - PyODDS: An End-to-end Outlier Detection System with Automated Machine
Learning [55.32009000204512]
PyODDSは、データベースサポート付きアウトレイラ検出のための、エンドツーエンドのPythonシステムである。
具体的には,探索空間を外乱検出パイプラインで定義し,与えられた探索空間内で探索戦略を作成する。
また、データサイエンスや機械学習のバックグラウンドの有無に関わらず、統一されたインターフェイスと視覚化を提供する。
論文 参考訳(メタデータ) (2020-03-12T03:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。