論文の概要: Automatic Analysis of Available Source Code of Top Artificial
Intelligence Conference Papers
- arxiv url: http://arxiv.org/abs/2209.14155v1
- Date: Wed, 28 Sep 2022 15:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:52:40.681201
- Title: Automatic Analysis of Available Source Code of Top Artificial
Intelligence Conference Papers
- Title(参考訳): トップ人工知能会議論文のソースコードの自動解析
- Authors: Jialiang Lin, Yingmin Wang, Yao Yu, Yu Zhou, Yidong Chen, Xiaodong Shi
- Abstract要約: 利用可能なソースコードで論文を自動的に識別し,ソースコードリポジトリURLを抽出する手法を提案する。
2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラー論文の20.5%が、利用可能なソースコードを持つ論文として特定されている。
大規模な包括的統計分析は、AI会議論文のソースコードの一般的な画像に対して行われる。
- 参考スコア(独自算出の注目度): 9.498078340492087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code is essential for researchers to reproduce the methods and
replicate the results of artificial intelligence (AI) papers. Some
organizations and researchers manually collect AI papers with available source
code to contribute to the AI community. However, manual collection is a
labor-intensive and time-consuming task. To address this issue, we propose a
method to automatically identify papers with available source code and extract
their source code repository URLs. With this method, we find that 20.5% of
regular papers of 10 top AI conferences published from 2010 to 2019 are
identified as papers with available source code and that 8.1% of these source
code repositories are no longer accessible. We also create the XMU NLP Lab
README Dataset, the largest dataset of labeled README files for source code
document research. Through this dataset, we have discovered that quite a few
README files have no installation instructions or usage tutorials provided.
Further, a large-scale comprehensive statistical analysis is made for a general
picture of the source code of AI conference papers. The proposed solution can
also go beyond AI conference papers to analyze other scientific papers from
both journals and conferences to shed light on more domains.
- Abstract(参考訳): ソースコードは、研究者が手法を再現し、人工知能(AI)論文の結果を複製するために不可欠である。
一部の組織や研究者は、AIコミュニティに貢献するために、利用可能なソースコードを持つAI論文を手作業で収集する。
しかし、手動収集は労働集約的で時間のかかる作業である。
この問題に対処するために,利用可能なソースコードで文書を自動的に識別し,ソースコードリポジトリurlを抽出する手法を提案する。
この方法では、2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラーペーパーの20.5%が利用可能なソースコードを持つ論文として特定されており、これらのソースコードリポジトリの8.1%はもはやアクセスできない。
また、ソースコード文書研究のためのラベル付きREADMEファイルの最大のデータセットであるXMU NLP Lab READMEデータセットを作成する。
このデータセットを通じて、READMEファイルにインストール手順や利用手順が提供されていないことが分かりました。
さらに、AI会議論文のソースコードの一般画像に対して、大規模な包括的統計分析を行う。
提案されたソリューションは、AIカンファレンスの論文を超えて、ジャーナルやカンファレンスの科学論文を分析して、より多くのドメインに光を当てることもできる。
関連論文リスト
- OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。
簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。
リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文 参考訳(メタデータ) (2024-09-27T11:42:19Z) - DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data [4.870043547158868]
データセットは、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。
モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。
結果として得られたDeepDelveAIデータセットは、1956年から2024年までのダートマス会議以来、940万以上のAI関連論文で構成されている。
論文 参考訳(メタデータ) (2024-08-23T07:05:12Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。
本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文 参考訳(メタデータ) (2024-05-29T16:57:33Z) - Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。
当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。
我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文 参考訳(メタデータ) (2024-04-04T10:09:28Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文 参考訳(メタデータ) (2021-10-09T06:32:09Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Artificial Intelligence in Drug Discovery: Applications and Techniques [33.59138543942538]
仮想スクリーニングやドラッグデザインなど、さまざまなAI技術が幅広い用途で使用されている。
まず、薬物発見の概要を説明し、関連するアプリケーションについて議論し、2つの主要なタスクに還元することができる。
次に、一般的なデータリソース、分子表現、ベンチマークプラットフォームについて議論する。
論文 参考訳(メタデータ) (2021-06-09T20:46:44Z) - A Methodology for Creating AI FactSheets [67.65802440158753]
本稿では、FactSheetsと呼ぶAIドキュメントの形式を作るための方法論について述べる。
方法論の各ステップの中で、検討すべき問題と探求すべき質問について説明する。
この方法論は、透明なAIドキュメントの採用を加速する。
論文 参考訳(メタデータ) (2020-06-24T15:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。