論文の概要: iTRI-QA: a Toolset for Customized Question-Answer Dataset Generation Using Language Models for Enhanced Scientific Research
- arxiv url: http://arxiv.org/abs/2502.15721v1
- Date: Mon, 27 Jan 2025 23:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 04:52:11.015503
- Title: iTRI-QA: a Toolset for Customized Question-Answer Dataset Generation Using Language Models for Enhanced Scientific Research
- Title(参考訳): ITRI-QA: 言語モデルを用いたカスタマイズされた質問応答データセット生成ツールセットによる科学的研究の促進
- Authors: Qiming Liu, Zhongzheng Niu, Siting Liu, Mao Tian,
- Abstract要約: 本稿では,iTRI (Interactive Trained Research Innovator) - QA (Interactive Trained Research Innovator) と呼ばれる,カスタマイズされた質問応答(QA)データセットの開発のためのツールを提案する。
提案手法は,キュレートされたQAデータセットと特殊な研究論文データセットを統合し,微調整されたLMを用いて応答の文脈的関連性と精度を向上させる。
このパイプラインは動的でドメイン固有のQAシステムを提供し、将来のLMデプロイメントに適用される。
- 参考スコア(独自算出の注目度): 1.2411445143550854
- License:
- Abstract: The exponential growth of AI in science necessitates efficient and scalable solutions for retrieving and preserving research information. Here, we present a tool for the development of a customized question-answer (QA) dataset, called Interactive Trained Research Innovator (iTRI) - QA, tailored for the needs of researchers leveraging language models (LMs) to retrieve scientific knowledge in a QA format. Our approach integrates curated QA datasets with a specialized research paper dataset to enhance responses' contextual relevance and accuracy using fine-tuned LM. The framework comprises four key steps: (1) the generation of high-quality and human-generated QA examples, (2) the creation of a structured research paper database, (3) the fine-tuning of LMs using domain-specific QA examples, and (4) the generation of QA dataset that align with user queries and the curated database. This pipeline provides a dynamic and domain-specific QA system that augments the utility of LMs in academic research that will be applied for future research LM deployment. We demonstrate the feasibility and scalability of our tool for streamlining knowledge retrieval in scientific contexts, paving the way for its integration into broader multi-disciplinary applications.
- Abstract(参考訳): 科学におけるAIの指数的な成長は、研究情報の検索と保存のために効率的でスケーラブルなソリューションを必要とする。
本稿では,言語モデル (LM) を利用したQA形式の科学知識の収集を目的とした,対話型学習研究イノベータ (iTRI) と呼ばれるQAデータセットの開発のためのツールを提案する。
提案手法は,キュレートされたQAデータセットと特殊な研究論文データセットを統合し,微調整されたLMを用いて応答の文脈的関連性と精度を向上させる。
本フレームワークは,(1)高品質で人為的なQA例の生成,(2)構造化された研究論文データベースの作成,(3)ドメイン固有のQA例を用いたLMの微調整,(4)ユーザクエリとキュレートされたデータベースに対応するQAデータセットの生成の4つの重要なステップから構成される。
このパイプラインは動的でドメイン固有のQAシステムを提供し、学術研究におけるLMの有用性を強化し、将来のLMデプロイメントに応用する。
我々は、科学的な文脈における知識検索の合理化と、より広範な多分野アプリケーションへの統合の道を開くためのツールの実現可能性と拡張性を実証する。
関連論文リスト
- Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。
以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。
合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文 参考訳(メタデータ) (2024-10-29T16:19:08Z) - Aggregated Knowledge Model: Enhancing Domain-Specific QA with Fine-Tuned and Retrieval-Augmented Generation Models [0.0]
本稿では,クローズドドメイン質問応答システム(QA)の新たなアプローチを提案する。
ローレンス・バークレー国立研究所(LBL)科学情報技術(ScienceIT)ドメインの特定のニーズに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-24T00:49:46Z) - Retriever-and-Memory: Towards Adaptive Note-Enhanced Retrieval-Augmented Generation [72.70046559930555]
本稿では,複雑なQAタスクに対する適応ノート拡張RAG(Adaptive Note-Enhanced RAG)と呼ばれる汎用RAGアプローチを提案する。
具体的には、Adaptive-Noteは、知識の成長に関する包括的な視点を導入し、ノート形式で新しい情報を反復的に収集する。
さらに,適切な知識探索を促進するために,適応的な音符ベースの停止探索戦略を用いて,「何を検索し,いつ停止するか」を判断する。
論文 参考訳(メタデータ) (2024-10-11T14:03:29Z) - Increasing the Difficulty of Automatically Generated Questions via Reinforcement Learning with Synthetic Preference [11.31451429456241]
本研究は,(1)PPOと合成データを用いた質問の難易度向上手法,(2)人的評価を含む手法の有効性の実証的証拠,(3)詳細な誤り分析と創発現象の研究に寄与する。
論文 参考訳(メタデータ) (2024-10-10T18:21:00Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - Automatic Question-Answer Generation for Long-Tail Knowledge [65.11554185687258]
テールエンティティのための特別なQAデータセットを生成するための自動アプローチを提案する。
我々は,新たに生成された長尾QAデータセットに事前学習したLLMを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-03-03T03:06:31Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Around the GLOBE: Numerical Aggregation Question-Answering on
Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。
提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。
本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2023-07-30T12:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。