論文の概要: DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
- arxiv url: http://arxiv.org/abs/2408.12871v4
- Date: Mon, 17 Mar 2025 12:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:28.116236
- Title: DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
- Title(参考訳): DeepDiveAI: 大規模文献データにおけるAI関連ドキュメントの識別
- Authors: Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing,
- Abstract要約: 本稿では,大規模文献データベースからAI関連文書を自動的に分類する手法を提案する。
データセット構築アプローチは、専門家の知識と高度なモデルの能力を統合する。
- 参考スコア(独自算出の注目度): 4.870043547158868
- License:
- Abstract: In this paper, we propose a method to automatically classify AI-related documents from large-scale literature databases, leading to the creation of an AI-related literature dataset, named DeepDiveAI. The dataset construction approach integrates expert knowledge with the capabilities of advanced models, structured across two global stages. In the first stage, expert-curated classification datasets are used to train an LSTM model, which classifies coarse AI related records from large-scale datasets. In the second stage, we use Qwen2.5 Plus to annotate a random 10% of the coarse AI-related records, which are then used to train a BERT binary classifier. This step further refines the coarse AI related record set to obtain the final DeepDiveAI dataset. Evaluation results demonstrate that the entire workflow can efficiently and accurately identify AI-related literature from large-scale datasets.
- Abstract(参考訳): 本稿では,大規模文献データベースからAI関連文書を自動的に分類する手法を提案する。
データセット構築アプローチは、専門家の知識と、2つのグローバルステージにまたがって構築された高度なモデルの能力を統合する。
第1段階では、専門家による分類データセットを使用して、大規模なデータセットから粗いAI関連レコードを分類するLSTMモデルをトレーニングする。
第2段階では、Qwen2.5 Plusを使用して、粗いAI関連レコードの10%のランダムなアノテートを行い、BERTバイナリ分類器のトレーニングに使用する。
このステップでは、粗いAI関連レコードセットをさらに洗練して、最終的なDeepDiveAIデータセットを取得する。
評価結果は、ワークフロー全体が大規模データセットからAI関連の文献を効率的かつ正確に識別できることを示している。
関連論文リスト
- DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis [0.0]
本研究では,データ駆動型モデルであるStyloAIを提案する。
StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
論文 参考訳(メタデータ) (2024-05-16T14:28:01Z) - Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
この調査では、ACM Digital Library、IEEE Xplore、Nature、Springer、Science Directなどのジャーナル、著名なAI専門家が発行するオンライン記事の140以上の論文を調査している。
本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:19:57Z) - DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。
LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。
我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文 参考訳(メタデータ) (2024-03-04T22:47:58Z) - Deep Transfer Learning for Automatic Speech Recognition: Towards Better
Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題
大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。
ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文 参考訳(メタデータ) (2023-04-27T21:08:05Z) - Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。
本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。
これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文 参考訳(メタデータ) (2023-03-17T17:44:56Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Paradigm selection for Data Fusion of SAR and Multispectral Sentinel
data applied to Land-Cover Classification [63.072664304695465]
本稿では、畳み込みニューラルネットワーク(CNN)に基づく4つのデータ融合パラダイムを分析し、実装する。
目標は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、その結果、最高の分類結果が得られる。
この手順は、土地被覆分類のために検証されているが、他のケースに転送することができる。
論文 参考訳(メタデータ) (2021-06-18T11:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。