論文の概要: DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
- arxiv url: http://arxiv.org/abs/2408.12871v3
- Date: Tue, 8 Oct 2024 07:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:26:28.544424
- Title: DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
- Title(参考訳): DeepDiveAI: 大規模文献データにおけるAI関連ドキュメントの識別
- Authors: Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing,
- Abstract要約: データセットは、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。
モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。
結果として得られたDeepDelveAIデータセットは、1956年から2024年までのダートマス会議以来、940万以上のAI関連論文で構成されている。
- 参考スコア(独自算出の注目度): 4.870043547158868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents DeepDiveAI, a comprehensive dataset specifically curated to identify AI-related research papers from a large-scale academic literature database. The dataset was created using an advanced Long Short-Term Memory (LSTM) model trained on a binary classification task to distinguish between AI-related and non-AI-related papers. The model was trained and validated on a vast dataset, achieving high accuracy, precision, recall, and F1-score. The resulting DeepDelveAI dataset comprises over 9.4 million AI-related papers published since Dartmouth Conference, from 1956 to 2024, providing a crucial resource for analyzing trends, thematic developments, and the evolution of AI research across various disciplines.
- Abstract(参考訳): 本稿では,大規模学術文献データベースからAI関連の研究論文を特定するための包括的データセットであるDeepDiveAIを提案する。
データセットは、AI関連の論文と非AI関連の論文を区別するために、バイナリ分類タスクに基づいてトレーニングされた高度なLong Short-Term Memory(LSTM)モデルを使用して作成された。
モデルはトレーニングされ、膨大なデータセットで検証され、高精度、精度、リコール、F1スコアが達成された。
結果として得られたDeepDelveAIデータセットは、1956年から2024年にかけてのDartmouth Conference以来、940万以上のAI関連論文で構成され、トレンド、テーマ開発、さまざまな分野にわたるAI研究の進化を分析する上で重要なリソースを提供する。
関連論文リスト
- Survey and Taxonomy: The Role of Data-Centric AI in Transformer-Based Time Series Forecasting [36.31269406067809]
データ中心のAIは、AIモデルのトレーニング、特にトランスフォーマーベースのTSFモデルの効率的なトレーニングに不可欠である、と私たちは主張する。
我々は、データ中心のAIの観点から、これまでの研究成果をレビューし、トランスフォーマーベースのアーキテクチャとデータ中心のAIの将来の開発のための基礎的な作業を行うつもりです。
論文 参考訳(メタデータ) (2024-07-29T08:27:21Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis [0.0]
本研究では,データ駆動型モデルであるStyloAIを提案する。
StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
論文 参考訳(メタデータ) (2024-05-16T14:28:01Z) - Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
粗悪な品質データは不正確で非効率なAIモデルを生成する。
データ品質の改善に多くの研究開発努力が費やされている。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:19:57Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Paradigm selection for Data Fusion of SAR and Multispectral Sentinel
data applied to Land-Cover Classification [63.072664304695465]
本稿では、畳み込みニューラルネットワーク(CNN)に基づく4つのデータ融合パラダイムを分析し、実装する。
目標は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、その結果、最高の分類結果が得られる。
この手順は、土地被覆分類のために検証されているが、他のケースに転送することができる。
論文 参考訳(メタデータ) (2021-06-18T11:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。