論文の概要: Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers
- arxiv url: http://arxiv.org/abs/2502.10263v1
- Date: Fri, 14 Feb 2025 16:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:53.895640
- Title: Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers
- Title(参考訳): 研究論文におけるデータセットの計測のための大規模言語モデルと合成データ
- Authors: Aivin V. Solatorio, Rafael Macalaba, James Liounis,
- Abstract要約: 本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Tracking how data is mentioned and used in research papers provides critical insights for improving data discoverability, quality, and production. However, manually identifying and classifying dataset mentions across vast academic literature is resource-intensive and not scalable. This paper presents a machine learning framework that automates dataset mention detection across research domains by leveraging large language models (LLMs), synthetic data, and a two-stage fine-tuning process. We employ zero-shot extraction from research papers, an LLM-as-a-Judge for quality assessment, and a reasoning agent for refinement to generate a weakly supervised synthetic dataset. The Phi-3.5-mini instruct model is pre-fine-tuned on this dataset, followed by fine-tuning on a manually annotated subset. At inference, a ModernBERT-based classifier efficiently filters dataset mentions, reducing computational overhead while maintaining high recall. Evaluated on a held-out manually annotated sample, our fine-tuned model outperforms NuExtract-v1.5 and GLiNER-large-v2.1 in dataset extraction accuracy. Our results highlight how LLM-generated synthetic data can effectively address training data scarcity, improving generalization in low-resource settings. This framework offers a pathway toward scalable monitoring of dataset usage, enhancing transparency, and supporting researchers, funders, and policymakers in identifying data gaps and strengthening data accessibility for informed decision-making.
- Abstract(参考訳): 研究論文で言及されたデータの追跡と利用は、データの発見可能性、品質、生産性を改善する上で重要な洞察を提供する。
しかし、膨大な学術文献にまたがるデータセットを手動で識別し分類することは、リソース集約であり、スケーラブルではない。
本稿では、大規模言語モデル(LLM)、合成データ、および2段階の微調整プロセスを活用することにより、研究領域間でのデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
Phi-3.5-mini命令モデルは、このデータセットで事前に微調整され、次に手動で注釈付きサブセットで微調整される。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
手動でアノテートしたサンプルを用いて評価し,NuExtract-v1.5とGLiNER-large-v2.1をデータセット抽出精度で比較した。
この結果から,LLM生成合成データがトレーニングデータの不足に効果的に対処し,低リソース環境における一般化を向上する方法が示唆された。
このフレームワークは、データセットの使用状況のスケーラブルな監視、透明性の強化、データギャップの特定と情報意思決定のためのデータアクセシビリティの強化における研究者、資金提供者、政策立案者のサポートを提供する。
関連論文リスト
- The Promises and Pitfalls of LLM Annotations in Dataset Labeling: a Case Study on Media Bias Detection [23.378592856800168]
大きな言語モデル(LLM)は、アノテーションプロセスの自動化に使用することができる。
本研究では,メディアバイアス検出の複雑なタスクにLDMが適用可能であるかを検討する。
メディアバイアス分類のための,最初の大規模データセットであるAnnolexicalを作成します。
論文 参考訳(メタデータ) (2024-11-17T14:14:36Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - KAXAI: An Integrated Environment for Knowledge Analysis and Explainable
AI [0.0]
本稿では,AutoML,XAI,合成データ生成を統合したシステムの設計について述べる。
このシステムは、複雑度を抽象化し、高いユーザビリティを提供しながら、機械学習のパワーをナビゲートし活用することができる。
論文 参考訳(メタデータ) (2023-12-30T10:20:47Z) - TRIAGE: Characterizing and auditing training data for improved
regression [80.11415390605215]
TRIAGEは回帰タスクに適した新しいデータキャラクタリゼーションフレームワークで、広範囲の回帰器と互換性がある。
TRIAGEは、共形予測分布を利用して、モデルに依存しないスコアリング方法、TRIAGEスコアを提供する。
TRIAGEの特徴は一貫性があり、複数の回帰設定においてデータの彫刻/フィルタリングによるパフォーマンス向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-29T10:31:59Z) - Can LLMs Augment Low-Resource Reading Comprehension Datasets? Opportunities and Challenges [3.130575840003799]
GPT-4は、既存の読解データセットを強化するために使用できる。
この研究は、QAシステムのための合成データ拡張器としてLLMを初めて分析した。
論文 参考訳(メタデータ) (2023-09-21T18:48:02Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - DAGA: Data Augmentation with a Generation Approach for Low-resource
Tagging Tasks [88.62288327934499]
線形化ラベル付き文に基づいて訓練された言語モデルを用いた新しい拡張手法を提案する。
本手法は, 教師付き設定と半教師付き設定の両方に適用可能である。
論文 参考訳(メタデータ) (2020-11-03T07:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。