論文の概要: Automatic Analysis of Available Source Code of Top Artificial
Intelligence Conference Papers
- arxiv url: http://arxiv.org/abs/2209.14155v1
- Date: Wed, 28 Sep 2022 15:05:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 15:52:40.681201
- Title: Automatic Analysis of Available Source Code of Top Artificial
Intelligence Conference Papers
- Title(参考訳): トップ人工知能会議論文のソースコードの自動解析
- Authors: Jialiang Lin, Yingmin Wang, Yao Yu, Yu Zhou, Yidong Chen, Xiaodong Shi
- Abstract要約: 利用可能なソースコードで論文を自動的に識別し,ソースコードリポジトリURLを抽出する手法を提案する。
2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラー論文の20.5%が、利用可能なソースコードを持つ論文として特定されている。
大規模な包括的統計分析は、AI会議論文のソースコードの一般的な画像に対して行われる。
- 参考スコア(独自算出の注目度): 9.498078340492087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Source code is essential for researchers to reproduce the methods and
replicate the results of artificial intelligence (AI) papers. Some
organizations and researchers manually collect AI papers with available source
code to contribute to the AI community. However, manual collection is a
labor-intensive and time-consuming task. To address this issue, we propose a
method to automatically identify papers with available source code and extract
their source code repository URLs. With this method, we find that 20.5% of
regular papers of 10 top AI conferences published from 2010 to 2019 are
identified as papers with available source code and that 8.1% of these source
code repositories are no longer accessible. We also create the XMU NLP Lab
README Dataset, the largest dataset of labeled README files for source code
document research. Through this dataset, we have discovered that quite a few
README files have no installation instructions or usage tutorials provided.
Further, a large-scale comprehensive statistical analysis is made for a general
picture of the source code of AI conference papers. The proposed solution can
also go beyond AI conference papers to analyze other scientific papers from
both journals and conferences to shed light on more domains.
- Abstract(参考訳): ソースコードは、研究者が手法を再現し、人工知能(AI)論文の結果を複製するために不可欠である。
一部の組織や研究者は、AIコミュニティに貢献するために、利用可能なソースコードを持つAI論文を手作業で収集する。
しかし、手動収集は労働集約的で時間のかかる作業である。
この問題に対処するために,利用可能なソースコードで文書を自動的に識別し,ソースコードリポジトリurlを抽出する手法を提案する。
この方法では、2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラーペーパーの20.5%が利用可能なソースコードを持つ論文として特定されており、これらのソースコードリポジトリの8.1%はもはやアクセスできない。
また、ソースコード文書研究のためのラベル付きREADMEファイルの最大のデータセットであるXMU NLP Lab READMEデータセットを作成する。
このデータセットを通じて、READMEファイルにインストール手順や利用手順が提供されていないことが分かりました。
さらに、AI会議論文のソースコードの一般画像に対して、大規模な包括的統計分析を行う。
提案されたソリューションは、AIカンファレンスの論文を超えて、ジャーナルやカンファレンスの科学論文を分析して、より多くのドメインに光を当てることもできる。
関連論文リスト
- DACO: Towards Application-Driven and Comprehensive Data Analysis via
Code Generation [86.4326416303723]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - Source Code Data Augmentation for Deep Learning: A Survey [32.035973285175075]
ソースコードに対するデータ拡張に関する包括的調査を行う。
DAの品質を最適化するための一般的な戦略とテクニックを強調します。
今後の研究の課題と可能性について概説する。
論文 参考訳(メタデータ) (2023-05-31T14:47:44Z) - Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文 参考訳(メタデータ) (2022-11-14T15:50:24Z) - DeepShovel: An Online Collaborative Platform for Data Extraction in
Geoscience Literature with AI Assistance [48.55345030503826]
地質学者は、関連する結果やデータを発見、抽出、集約するために膨大な量の文献を読む必要がある。
DeepShovelは、彼らのニーズをサポートするAI支援データ抽出システムである。
14人の研究者によるユーザ評価の結果、DeepShovelは科学データベース構築のためのデータ抽出の効率を改善した。
論文 参考訳(メタデータ) (2022-02-21T12:18:08Z) - ZeroVL: A Strong Baseline for Aligning Vision-Language Representations
with Limited Resources [13.30815073857842]
我々は、限られたリソースでデュアルエンコーダのマルチモーダル表現アライメントを行うための総合的なトレーニングガイダンスを提供する。
事前学習のために1億のWebデータを収集し、最先端の手法に匹敵する、あるいは優れた結果を得る。
私たちのコードと事前訓練されたモデルは、研究コミュニティを促進するためにリリースされます。
論文 参考訳(メタデータ) (2021-12-17T05:40:28Z) - Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。
また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。
変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文 参考訳(メタデータ) (2021-10-09T06:32:09Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Artificial Intelligence in Drug Discovery: Applications and Techniques [33.59138543942538]
仮想スクリーニングやドラッグデザインなど、さまざまなAI技術が幅広い用途で使用されている。
まず、薬物発見の概要を説明し、関連するアプリケーションについて議論し、2つの主要なタスクに還元することができる。
次に、一般的なデータリソース、分子表現、ベンチマークプラットフォームについて議論する。
論文 参考訳(メタデータ) (2021-06-09T20:46:44Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - A Methodology for Creating AI FactSheets [67.65802440158753]
本稿では、FactSheetsと呼ぶAIドキュメントの形式を作るための方法論について述べる。
方法論の各ステップの中で、検討すべき問題と探求すべき質問について説明する。
この方法論は、透明なAIドキュメントの採用を加速する。
論文 参考訳(メタデータ) (2020-06-24T15:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。