論文の概要: On the Anatomy of Real-World R Code for Static Analysis
- arxiv url: http://arxiv.org/abs/2401.16228v1
- Date: Mon, 29 Jan 2024 15:29:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 14:31:04.666553
- Title: On the Anatomy of Real-World R Code for Static Analysis
- Title(参考訳): 静的解析のための実世界R符号の解剖
- Authors: Florian Sihler, Lukas Pietzschmann, Raphael Straub, Matthias Tichy,
Andor Diera, Abdelhalim Dahou
- Abstract要約: 我々は,5000万行以上の実世界Rプログラムとパッケージの大規模静的解析を行う。
我々はRユーザのスクリプトとパッケージ作成者の実装の類似点と相違点を比較した。
名前に基づくインデックス、代入、ループの頻度は高いが、R の反射関数のほとんどでは低い頻度である。
- 参考スコア(独自算出の注目度): 1.1767330101986737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: CONTEXT The R programming language has a huge and active community,
especially in the area of statistical computing. Its interpreted nature allows
for several interesting constructs, like the manipulation of functions at
run-time, that hinder the static analysis of R programs. At the same time,
there is a lack of existing research regarding how these features, or even the
R language as a whole are used in practice. OBJECTIVE In this paper, we conduct
a large-scale, static analysis of more than 50 million lines of real-world R
programs and packages to identify their characteristics and the features that
are actually used. Moreover, we compare the similarities and differences
between the scripts of R users and the implementations of package authors. We
provide insights for static analysis tools like the lintr package as well as
potential interpreter optimizations and uncover areas for future research.
METHOD We analyze 4230 R scripts submitted alongside publications and the
sources of 19450 CRAN packages for over 350000 R files, collecting and
summarizing quantitative information for features of interest. RESULTS We find
a high frequency of name-based indexing operations, assignments, and loops, but
a low frequency for most of R's reflective functions. Furthermore, we find
neither testing functions nor many calls to R's foreign function interface
(FFI) in the publication submissions. CONCLUSION R scripts and package sources
differ, for example, in their size, the way they include other packages, and
their usage of R's reflective capabilities. We provide features that are used
frequently and should be prioritized by static analysis tools, like operator
assignments, function calls, and certain reflective functions like load.
- Abstract(参考訳): コンテキスト r プログラミング言語は、特に統計計算の分野で、巨大で活発なコミュニティを持っています。
その解釈の性質は、Rプログラムの静的解析を妨げる実行時の関数の操作など、いくつかの興味深い構成を可能にする。
同時に、これらの機能やR言語が実際にどのように使われているかについて、既存の研究が不足している。
OBJECTIVE この論文では,5000万行以上の実世界のRプログラムとパッケージを大規模に静的に解析し,それらの特性と実際に使用されている特徴を識別する。
さらに,Rユーザのスクリプトとパッケージ作成者の実装の類似点と相違点を比較した。
我々は、lintrパッケージのような静的解析ツールに対する洞察と、潜在的なインタプリタ最適化と将来の研究領域を明らかにする。
方法 出版物および19450 の CRAN パッケージを350000 以上の R ファイルに対して,4230 の R スクリプトを解析し,興味のある特徴の量的情報を収集し,要約する。
RESULTS 名前ベースのインデックス処理,代入,ループの頻度は高いが,R の反射関数の大部分では低い頻度である。
さらに,本論文では,Rの外部関数インタフェース(FFI)に対するテスト機能や多数の呼び出しは見つからない。
CONCLUSION Rスクリプトとパッケージソースは、例えば、そのサイズ、他のパッケージを含める方法、Rの反射能力の使用方法などによって異なる。
私たちは頻繁に使用される機能を提供し、オペレータの割り当てや関数呼び出し、ロードのようなある種のリフレクティブ関数といった静的解析ツールによって優先順位付けされるべきです。
関連論文リスト
- RobPy: a Python Package for Robust Statistical Methods [1.2233362977312945]
RobPyはPythonで幅広い堅牢なメソッドを提供し、NumPy、SciPy、Scikit-learnといった既存のライブラリ上に構築されている。
本稿では、RobPyパッケージの構造を示し、実例を通してその機能を実証し、その機能を他の統計ソフトウェアにおける既存の実装と比較する。
論文 参考訳(メタデータ) (2024-11-04T10:27:30Z) - Do Current Language Models Support Code Intelligence for R Programming Language? [2.225268436173329]
コード要約とメソッド名予測の2つのタスクに対して,複数の設定と戦略を用いてコード-PLMを評価する。
以上の結果から, 研究モデルでは, 性能劣化の程度が異なっていたことが示唆された。
Rの二重構文パラダイムは、特にコード要約タスクにおいて、モデルの性能に大きな影響を及ぼした。
論文 参考訳(メタデータ) (2024-10-10T10:23:23Z) - RAGGED: Towards Informed Design of Retrieval Augmented Generation Systems [51.171355532527365]
Retrieval-augmented Generation (RAG) は言語モデル(LM)の性能を大幅に向上させる
RAGGEDは、様々な文書ベースの質問応答タスクにわたるRAG構成を分析するためのフレームワークである。
論文 参考訳(メタデータ) (2024-03-14T02:26:31Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Ordinal time series analysis with the R package otsfeatures [0.0]
R package otsfeatures は順序時系列を解析するための単純な関数のセットを提供しようとする。
いくつかの関数の出力は、クラスタリング、分類、または外れ値検出などの従来の機械学習タスクの実行に使用することができる。
論文 参考訳(メタデータ) (2023-04-24T16:40:27Z) - Analyzing categorical time series with the R package ctsfeatures [0.0]
Rパッケージctsfeaturesは、カテゴリの時系列を分析するための便利なツールセットを提供する。
いくつかの関数の出力は、クラスタリング、分類、外れ値検出など、従来の機械学習タスクの実行に使用することができる。
論文 参考訳(メタデータ) (2023-04-24T16:16:56Z) - A multi-language toolkit for supporting automated checking of research outputs [0.44998333629984877]
acroは、公開が安全な研究出力、さらなる分析を必要とする出力、プライベートデータを開示する重大なリスクを生じるため公開できない出力の2つを区別する。
これは、テーブル、プロット、統計モデルなどの出力を生成するよく知られた分析ツールの上に置かれる軽量Pythonラッパーを使用することで実現される。
論文 参考訳(メタデータ) (2022-12-06T12:45:15Z) - Rissanen Data Analysis: Examining Dataset Characteristics via
Description Length [78.42578316883271]
特定の能力が与えられたデータの正確なモデルを達成するのに役立つかどうかを判断する手法を提案する。
最小プログラム長は計算不可能であるため,ラベルの最小記述長(MDL)をプロキシとして推定する。
我々は、mdlの父にちなんで、rissanen data analysis (rda) と呼ぶ。
論文 参考訳(メタデータ) (2021-03-05T18:58:32Z) - Shared Space Transfer Learning for analyzing multi-site fMRI data [83.41324371491774]
マルチボクセルパターン解析(MVPA)は、タスクベース機能磁気共鳴画像(fMRI)データから予測モデルを学習する。
MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。
ほとんどのfMRIデータセットはノイズが多く、高次元で、収集するのに高価で、サンプルサイズも小さい。
本稿では,新しい伝達学習手法として共有空間移動学習(SSTL)を提案する。
論文 参考訳(メタデータ) (2020-10-24T08:50:26Z) - Estimating Structural Target Functions using Machine Learning and
Influence Functions [103.47897241856603]
統計モデルから特定可能な関数として生じる対象関数の統計的機械学習のための新しい枠組みを提案する。
このフレームワークは問題とモデルに依存しないものであり、応用統計学における幅広い対象パラメータを推定するのに使用できる。
我々は、部分的に観測されていない情報を持つランダム/二重ロバストな問題において、いわゆる粗大化に特に焦点をあてた。
論文 参考訳(メタデータ) (2020-08-14T16:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。