論文の概要: ScIRGen: Synthesize Realistic and Large-Scale RAG Dataset for Scientific Research
- arxiv url: http://arxiv.org/abs/2506.11117v1
- Date: Mon, 09 Jun 2025 11:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.478868
- Title: ScIRGen: Synthesize Realistic and Large-Scale RAG Dataset for Scientific Research
- Title(参考訳): ScIRGen:科学研究のためのリアルかつ大規模RAGデータセットの合成
- Authors: Junyong Lin, Lu Dai, Ruiqian Han, Yijie Sui, Ruilin Wang, Xingliang Sun, Qinglin Wu, Min Feng, Hao Liu, Hui Xiong,
- Abstract要約: 我々は科学的なQAと検索のためのデータセット生成フレームワークであるScrirGenを開発した。
私たちはこれを使って、現実的なクエリ、データセット、論文を備えた大規模科学的検索強化世代(RAG)データセットを作成します。
- 参考スコア(独自算出の注目度): 15.983924435685553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific researchers need intensive information about datasets to effectively evaluate and develop theories and methodologies. The information needs regarding datasets are implicitly embedded in particular research tasks, rather than explicitly expressed in search queries. However, existing scientific retrieval and question-answering (QA) datasets typically address straightforward questions, which do not align with the distribution of real-world research inquiries. To bridge this gap, we developed ScIRGen, a dataset generation framework for scientific QA \& retrieval that more accurately reflects the information needs of professional science researchers, and uses it to create a large-scale scientific retrieval-augmented generation (RAG) dataset with realistic queries, datasets and papers. Technically, we designed a dataset-oriented information extraction method that leverages academic papers to augment the dataset representation. We then proposed a question generation framework by employing cognitive taxonomy to ensure the quality of synthesized questions. We also design a method to automatically filter synthetic answers based on the perplexity shift of LLMs, which is highly aligned with human judgment of answers' validity. Collectively, these methodologies culminated in the creation of the 61k QA dataset, ScIRGen-Geo. We benchmarked representative methods on the ScIRGen-Geo dataset for their question-answering and retrieval capabilities, finding out that current methods still suffer from reasoning from complex questions. This work advances the development of more sophisticated tools to support the intricate information needs of the scientific community.
- Abstract(参考訳): 科学研究者は、理論や方法論を効果的に評価し、開発するためにデータセットに関する集中的な情報を必要としている。
データセットに関する情報は、検索クエリで明示的に表現されるのではなく、特定の研究タスクに暗黙的に埋め込まれる。
しかし、既存の科学的検索と質問回答(QA)データセットは、現実の研究の回答の分布と一致しない、単純な質問に対処するのが一般的である。
このギャップを埋めるために、専門的な科学研究者の情報要求をより正確に反映した科学的なQAと検索のためのデータセット生成フレームワークであるScIRGenを開発し、現実的なクエリ、データセット、論文を含む大規模科学的な検索強化世代(RAG)データセットを作成する。
技術的には、学術論文を活用してデータセット表現を増強するデータセット指向情報抽出法を設計した。
そこで我々は, 認知分類を用いて, 質問の質を保証し, 質問生成の枠組みを提案した。
また,LLMの難易度変化に基づく合成回答を自動的にフィルタリングする手法も設計した。
これらの手法は、61k QAデータセットであるScIRGen-Geoの作成で決定された。
我々は,ScIRGen-Geoデータセット上の代表的手法を,質問応答と検索能力のためにベンチマークし,現在の手法が依然として複雑な質問からの推論に悩まされていることを確かめた。
この研究は、科学コミュニティの複雑な情報ニーズを支援するため、より洗練されたツールの開発を進める。
関連論文リスト
- InfoDeepSeek: Benchmarking Agentic Information Seeking for Retrieval-Augmented Generation [63.55258191625131]
InfoDeepSeekは、現実世界の動的Web環境でエージェント情報を求めるための新しいベンチマークである。
本稿では,決定性,難易度,多様性の基準を満たす課題クエリを構築するための体系的手法を提案する。
本研究では,情報探索結果の正確性,有用性,コンパクト性に関する詳細な指標を含む,動的エージェント情報探索に適した最初の評価フレームワークを開発する。
論文 参考訳(メタデータ) (2025-05-21T14:44:40Z) - CS-PaperSum: A Large-Scale Dataset of AI-Generated Summaries for Scientific Papers [3.929864777332447]
CS-PaperSumは、31の上位コンピュータサイエンスカンファレンスから91,919件の大規模データセットである。
我々のデータセットは、自動文献分析、研究トレンド予測、AIによる科学的発見を可能にする。
論文 参考訳(メタデータ) (2025-02-27T22:48:35Z) - iTRI-QA: a Toolset for Customized Question-Answer Dataset Generation Using Language Models for Enhanced Scientific Research [1.2411445143550854]
本稿では,iTRI (Interactive Trained Research Innovator) - QA (Interactive Trained Research Innovator) と呼ばれる,カスタマイズされた質問応答(QA)データセットの開発のためのツールを提案する。
提案手法は,キュレートされたQAデータセットと特殊な研究論文データセットを統合し,微調整されたLMを用いて応答の文脈的関連性と精度を向上させる。
このパイプラインは動的でドメイン固有のQAシステムを提供し、将来のLMデプロイメントに適用される。
論文 参考訳(メタデータ) (2025-01-27T23:38:39Z) - Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。
以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。
合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文 参考訳(メタデータ) (2024-10-29T16:19:08Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - DATED: Guidelines for Creating Synthetic Datasets for Engineering Design
Applications [3.463438487417909]
本研究では,合成データセットの生成,注釈付け,検証のための包括的ガイドラインを提案する。
この研究は、データセットの適切なサイズ、多様性、有用性、現実性を保証するために、思慮深いサンプリング手法の重要性を強調している。
本論文は、総合的に、エンジニアリング設計のための合成データセットの作成と公開を意図した研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-05-15T21:00:09Z) - Research Trends and Applications of Data Augmentation Algorithms [77.34726150561087]
我々は,データ拡張アルゴリズムの適用分野,使用するアルゴリズムの種類,重要な研究動向,時間経過に伴う研究の進展,およびデータ拡張文学における研究ギャップを同定する。
我々は、読者がデータ拡張の可能性を理解し、将来の研究方向を特定し、データ拡張研究の中で質問を開くことを期待する。
論文 参考訳(メタデータ) (2022-07-18T11:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。