Fugu-MT 論文翻訳(概要): DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data

論文の概要: DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data

arxiv url: http://arxiv.org/abs/2408.12871v5
Date: Tue, 22 Apr 2025 12:21:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 19:51:40.082586
Title: DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data
Title（参考訳）: DeepDiveAI: 大規模文献データにおけるAI関連ドキュメントの識別
Authors: Zhou Xiaochen, Liang Xingzhou, Zou Hui, Lu Yi, Qu Jingjing,
Abstract要約: 本稿では,大規模文献データベースからAI関連文書を自動的に分類する手法を提案する。データセット構築アプローチは、専門家の知識と高度なモデルの能力を統合する。
参考スコア（独自算出の注目度）: 4.870043547158868
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose a method to automatically classify AI-related documents from large-scale literature databases, leading to the creation of an AI-related literature dataset, named DeepDiveAI. The dataset construction approach integrates expert knowledge with the capabilities of advanced models, structured across two global stages. In the first stage, expert-curated classification datasets are used to train an LSTM model, which classifies coarse AI related records from large-scale datasets. In the second stage, we use Qwen2.5 Plus to annotate a random 10% of the coarse AI-related records, which are then used to train a BERT binary classifier. This step further refines the coarse AI related record set to obtain the final DeepDiveAI dataset. Evaluation results demonstrate that the entire workflow can efficiently and accurately identify AI-related literature from large-scale datasets.
Abstract（参考訳）: 本稿では,大規模文献データベースからAI関連文書を自動的に分類する手法を提案する。データセット構築アプローチは、専門家の知識と、2つのグローバルステージにまたがって構築された高度なモデルの能力を統合する。第1段階では、専門家による分類データセットを使用して、大規模なデータセットから粗いAI関連レコードを分類するLSTMモデルをトレーニングする。第2段階では、Qwen2.5 Plusを使用して、粗いAI関連レコードの10%のランダムなアノテートを行い、BERTバイナリ分類器のトレーニングに使用する。このステップでは、粗いAI関連レコードセットをさらに洗練して、最終的なDeepDiveAIデータセットを取得する。評価結果は、ワークフロー全体が大規模データセットからAI関連の文献を効率的かつ正確に識別できることを示している。

関連論文リスト

Closing the Data Loop: Using OpenDataArena to Engineer Superior Training Datasets [46.480867560675584]
アドホックなキュレーションからOpenDataArena(ODA)を用いたクローズドループデータセットエンジニアリングフレームワークへのパラダイムシフトを提案する。 textbfODA-Math460-kは、AIMEやHMMTなどのベンチマークでステート・オブ・ザ・アーツ(SOTA)結果を達成するために、新しい2段階の難易度対応パイプラインを利用する特殊な数学推論データセットであり、textbfODA-Mixture (100k & 500k) はアンカー・アンド・アンカーで構築された一連のマルチドメイン命令データセットである。
論文参考訳（メタデータ） (2025-12-30T17:46:38Z)
OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。 ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文参考訳（メタデータ） (2025-12-16T03:33:24Z)
AiEDA: An Open-Source AI-Aided Design Library for Design-to-Vector [13.443294857996852]
EDA(AI-EDA)インフラストラクチャの現在のAIは、設計実行からAI統合に至るまで、データパイプライン全体の包括的なソリューションを欠いている。この研究は、これらの問題に対処するEDA(AiEDA)のための統一されたオープンソースライブラリを導入している。 AiEDAは、多様なチップ設計データを普遍的なマルチレベルベクトル表現に変換する複数の設計-ベクトルデータ表現技術を統合する。
論文参考訳（メタデータ） (2025-11-08T03:14:26Z)
Standards in the Preparation of Biomedical Research Metadata: A Bridge2AI Perspective [1.0389904886733017]
Bridge2AIは、データセットがAI対応をレンダリングするために必要な基準を定義した。これらの基準には、FAIRness、profance、キャラクタリゼーションの度合い、説明可能性、持続可能性、計算可能性が含まれる。本報告は,Bridge2AIグランドチャレンジにおけるメタデータ作成と標準化の状況を評価する。
論文参考訳（メタデータ） (2025-09-12T17:38:46Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)
DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文参考訳（メタデータ） (2024-12-09T08:47:05Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
本稿では,実行すべきタスクを実演する少数のユーザ記述型少数ショットを前提として,合成データセットを生成する手法を提案する。我々は, CRAFTが生物, 医学, 常識質問応答(QA)の4つのタスクに対して, 大規模タスク特化学習データセットを効率的に生成できることを実証した。実験の結果, CRAFT を用いたモデルでは, 一般 LLM をQA タスクで上回ったり, 一致させたりしていることがわかった。
論文参考訳（メタデータ） (2024-09-03T17:54:40Z)
Survey and Taxonomy: The Role of Data-Centric AI in Transformer-Based Time Series Forecasting [36.31269406067809]
データ中心のAIは、AIモデルのトレーニング、特にトランスフォーマーベースのTSFモデルの効率的なトレーニングに不可欠である、と私たちは主張する。我々は、データ中心のAIの観点から、これまでの研究成果をレビューし、トランスフォーマーベースのアーキテクチャとデータ中心のAIの将来の開発のための基礎的な作業を行うつもりです。
論文参考訳（メタデータ） (2024-07-29T08:27:21Z)
Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文参考訳（メタデータ） (2024-06-20T16:34:07Z)
StyloAI: Distinguishing AI-Generated Content with Stylometric Analysis [0.0]
本研究では,データ駆動型モデルであるStyloAIを提案する。 StyloAIは、AuTextificationデータセットとUltra Educationデータセットのテストセットで、それぞれ81%と98%の精度を達成している。
論文参考訳（メタデータ） (2024-05-16T14:28:01Z)
Data Readiness for AI: A 360-Degree Survey [0.9343816282846432]
粗悪な品質データは不正確で非効率なAIモデルを生成する。データ品質の改善に多くの研究開発努力が費やされている。本稿では、構造化データセットと非構造化データセットのためのAI(DRAI)メトリクスのためのデータ準備性の分類法を提案する。
論文参考訳（メタデータ） (2024-04-08T15:19:57Z)
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation [83.30006900263744]
データ分析は、詳細な研究と決定的な洞察を生み出すための重要な分析プロセスである。 LLMのコード生成機能を活用した高品質な応答アノテーションの自動生成を提案する。我々のDACO-RLアルゴリズムは、57.72%のケースにおいて、SFTモデルよりも有用な回答を生成するために、人間のアノテータによって評価される。
論文参考訳（メタデータ） (2024-03-04T22:47:58Z)
Deep Transfer Learning for Automatic Speech Recognition: Towards Better Generalization [3.6393183544320236]
深層学習(DL)における音声認識の課題大規模なトレーニングデータセットと高い計算とストレージリソースが必要です。ディープトランスファーラーニング(DTL)はこれらの問題を克服するために導入された。
論文参考訳（メタデータ） (2023-04-27T21:08:05Z)
Data-centric Artificial Intelligence: A Survey [47.24049907785989]
近年、AIにおけるデータの役割は大幅に拡大し、データ中心AIという新たな概念が生まれた。本稿では,データ中心型AIの必要性について論じ,続いて3つの一般的なデータ中心型目標の全体像を考察する。これは、データライフサイクルのさまざまな段階にわたるタスクのグローバルなビューを提供する、初めての総合的な調査である、と私たちは信じています。
論文参考訳（メタデータ） (2023-03-17T17:44:56Z)
Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文参考訳（メタデータ） (2022-07-18T11:38:32Z)
Unsupervised Domain Adaptive Learning via Synthetic Data for Person Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文参考訳（メタデータ） (2021-09-12T15:51:41Z)
Paradigm selection for Data Fusion of SAR and Multispectral Sentinel data applied to Land-Cover Classification [63.072664304695465]
本稿では、畳み込みニューラルネットワーク(CNN)に基づく4つのデータ融合パラダイムを分析し、実装する。目標は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、その結果、最高の分類結果が得られる。この手順は、土地被覆分類のために検証されているが、他のケースに転送することができる。
論文参考訳（メタデータ） (2021-06-18T11:36:54Z)
Data Augmentation for Abstractive Query-Focused Multi-Document Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文参考訳（メタデータ） (2021-03-02T16:57:01Z)
Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文参考訳（メタデータ） (2020-12-29T23:43:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。