Fugu-MT 論文翻訳(概要): Automatic Analysis of Available Source Code of Top Artificial Intelligence Conference Papers

論文の概要: Automatic Analysis of Available Source Code of Top Artificial Intelligence Conference Papers

arxiv url: http://arxiv.org/abs/2209.14155v1
Date: Wed, 28 Sep 2022 15:05:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 15:52:40.681201
Title: Automatic Analysis of Available Source Code of Top Artificial Intelligence Conference Papers
Title（参考訳）: トップ人工知能会議論文のソースコードの自動解析
Authors: Jialiang Lin, Yingmin Wang, Yao Yu, Yu Zhou, Yidong Chen, Xiaodong Shi
Abstract要約: 利用可能なソースコードで論文を自動的に識別し,ソースコードリポジトリURLを抽出する手法を提案する。 2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラー論文の20.5%が、利用可能なソースコードを持つ論文として特定されている。大規模な包括的統計分析は、AI会議論文のソースコードの一般的な画像に対して行われる。
参考スコア（独自算出の注目度）: 9.498078340492087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Source code is essential for researchers to reproduce the methods and replicate the results of artificial intelligence (AI) papers. Some organizations and researchers manually collect AI papers with available source code to contribute to the AI community. However, manual collection is a labor-intensive and time-consuming task. To address this issue, we propose a method to automatically identify papers with available source code and extract their source code repository URLs. With this method, we find that 20.5% of regular papers of 10 top AI conferences published from 2010 to 2019 are identified as papers with available source code and that 8.1% of these source code repositories are no longer accessible. We also create the XMU NLP Lab README Dataset, the largest dataset of labeled README files for source code document research. Through this dataset, we have discovered that quite a few README files have no installation instructions or usage tutorials provided. Further, a large-scale comprehensive statistical analysis is made for a general picture of the source code of AI conference papers. The proposed solution can also go beyond AI conference papers to analyze other scientific papers from both journals and conferences to shed light on more domains.
Abstract（参考訳）: ソースコードは、研究者が手法を再現し、人工知能(AI)論文の結果を複製するために不可欠である。一部の組織や研究者は、AIコミュニティに貢献するために、利用可能なソースコードを持つAI論文を手作業で収集する。しかし、手動収集は労働集約的で時間のかかる作業である。この問題に対処するために,利用可能なソースコードで文書を自動的に識別し,ソースコードリポジトリurlを抽出する手法を提案する。この方法では、2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラーペーパーの20.5%が利用可能なソースコードを持つ論文として特定されており、これらのソースコードリポジトリの8.1%はもはやアクセスできない。また、ソースコード文書研究のためのラベル付きREADMEファイルの最大のデータセットであるXMU NLP Lab READMEデータセットを作成する。このデータセットを通じて、READMEファイルにインストール手順や利用手順が提供されていないことが分かりました。さらに、AI会議論文のソースコードの一般画像に対して、大規模な包括的統計分析を行う。提案されたソリューションは、AIカンファレンスの論文を超えて、ジャーナルやカンファレンスの科学論文を分析して、より多くのドメインに光を当てることもできる。

関連論文リスト

Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning [57.09163579304332]
機械学習論文を機能コードリポジトリに変換するフレームワークであるPaperCoderを紹介した。 PaperCoderは3つの段階で動作する。計画、図によるシステムアーキテクチャの設計、ファイル依存の特定、構成ファイルの生成である。次に、モデルベースおよび人的評価の両方に基づいて、機械学習論文からコード実装を生成するPaperCoderを評価する。
論文参考訳（メタデータ） (2025-04-24T01:57:01Z)
PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。 PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文参考訳（メタデータ） (2025-04-02T15:55:24Z)
BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。 BigDocs-Benchも導入しています。実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文参考訳（メタデータ） (2024-12-05T21:41:20Z)
Automatic answering of scientific questions using the FACTS-V1 framework: New methods in research to increase efficiency through the use of AI [0.0]
本稿では FACTS-V1 (Filtering and Analysis of Content in Textual Sources) フレームワークのプロトタイプについて述べる。このアプリケーションの助けを借りて、多数の科学論文を自動的に抽出し、分析し、オープンアクセス文書サーバから解釈することができる。このフレームワークの目的は、既存のデータに基づいた将来の科学的質問に対するレコメンデーションを提供することである。
論文参考訳（メタデータ） (2024-12-01T18:55:39Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
SEART Data Hub: Streamlining Large-Scale Source Code Mining and Pre-Processing [13.717170962455526]
私たちはSEART Data HubというWebアプリケーションを紹介します。これは、公開GitHubリポジトリからマイニングされたコードを特徴とする大規模データセットを簡単に構築し、事前処理できるWebアプリケーションです。簡単なWebインターフェースを通じて、研究者はマイニング基準と、実行したい特定の前処理ステップを指定できる。リクエストを提出すると、ユーザは数時間以内に、必要なデータセットのダウンロードリンク付きのメールを受け取る。
論文参考訳（メタデータ） (2024-09-27T11:42:19Z)
DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data [4.870043547158868]
データセットは、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。結果として得られたDeepDelveAIデータセットは、1956年から2024年までのダートマス会議以来、940万以上のAI関連論文で構成されている。
論文参考訳（メタデータ） (2024-08-23T07:05:12Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
AlchemistCoder: Harmonizing and Eliciting Code Capability by Hindsight Tuning on Multi-source Data [64.69872638349922]
本稿では、マルチソースデータに微調整されたコード生成と一般化機能を備えたコードLLMのシリーズであるAlchemistCoderを紹介する。本稿では,データ構築過程を微調整データに組み込んで,命令の進化,データフィルタリング,コードレビューなどのコード理解タスクを提案する。
論文参考訳（メタデータ） (2024-05-29T16:57:33Z)
Using Large Language Models to Enrich the Documentation of Datasets for Machine Learning [1.8270184406083445]
大規模言語モデル(LLM)を用いて,文書から次元を自動的に抽出する戦略について検討する。当社のアプローチは、データパブリッシャや実践者がマシン可読なドキュメントを作成するのに役立ちます。我々は、我々のアプローチを実装するオープンソースツールと、実験のコードと結果を含むレプリケーションパッケージをリリースした。
論文参考訳（メタデータ） (2024-04-04T10:09:28Z)
GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。 Jupyter NotebookベースのウォークスルーがGitHubで公開されている。 GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文参考訳（メタデータ） (2023-06-02T12:09:59Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)
Paperswithtopic: Topic Identification from Paper Title Only [5.025654873456756]
人工知能(AI)分野からタイトルとサブフィールドで組み合わせた論文のデータセットを提示する。また、論文タイトルのみから、論文のAIサブフィールドを予測する方法についても提示する。変圧器モデルに対しては、モデルの分類過程をさらに説明するために、勾配に基づく注意可視化も提示する。
論文参考訳（メタデータ） (2021-10-09T06:32:09Z)
Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文参考訳（メタデータ） (2021-07-01T09:26:13Z)
Artificial Intelligence in Drug Discovery: Applications and Techniques [33.59138543942538]
仮想スクリーニングやドラッグデザインなど、さまざまなAI技術が幅広い用途で使用されている。まず、薬物発見の概要を説明し、関連するアプリケーションについて議論し、2つの主要なタスクに還元することができる。次に、一般的なデータリソース、分子表現、ベンチマークプラットフォームについて議論する。
論文参考訳（メタデータ） (2021-06-09T20:46:44Z)
A Methodology for Creating AI FactSheets [67.65802440158753]
本稿では、FactSheetsと呼ぶAIドキュメントの形式を作るための方法論について述べる。方法論の各ステップの中で、検討すべき問題と探求すべき質問について説明する。この方法論は、透明なAIドキュメントの採用を加速する。
論文参考訳（メタデータ） (2020-06-24T15:08:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。