論文の概要: Automated Generation of Research Workflows from Academic Papers: A Full-text Mining Framework
- arxiv url: http://arxiv.org/abs/2509.12955v1
- Date: Tue, 16 Sep 2025 10:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.047125
- Title: Automated Generation of Research Workflows from Academic Papers: A Full-text Mining Framework
- Title(参考訳): 学術論文による研究ワークフローの自動生成:フルテキストマイニングフレームワーク
- Authors: Heng Zhang, Chengzhi Zhang,
- Abstract要約: 本稿では,全文学術論文をマイニングすることで総合的かつ構造化された研究論文を生成するエンドツーエンドフレームワークを提案する。
我々はFlan-T5を用いて、段落からワークフローフレーズを生成し、それぞれ0.4543、0.2877、0.4427のROUGE-1、ROUGE-2、ROUGELスコアを得る。
このアプローチは、データ分析の強調や、機能工学からアブレーション研究への移行など、過去20年間の重要な方法論的変化を明らかにしている。
- 参考スコア(独自算出の注目度): 7.681506465886571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated generation of research workflows is essential for improving the reproducibility of research and accelerating the paradigm of "AI for Science". However, existing methods typically extract merely fragmented procedural components and thus fail to capture complete research workflows. To address this gap, we propose an end-to-end framework that generates comprehensive, structured research workflows by mining full-text academic papers. As a case study in the Natural Language Processing (NLP) domain, our paragraph-centric approach first employs Positive-Unlabeled (PU) Learning with SciBERT to identify workflow-descriptive paragraphs, achieving an F1-score of 0.9772. Subsequently, we utilize Flan-T5 with prompt learning to generate workflow phrases from these paragraphs, yielding ROUGE-1, ROUGE-2, and ROUGE-L scores of 0.4543, 0.2877, and 0.4427, respectively. These phrases are then systematically categorized into data preparation, data processing, and data analysis stages using ChatGPT with few-shot learning, achieving a classification precision of 0.958. By mapping categorized phrases to their document locations in the documents, we finally generate readable visual flowcharts of the entire research workflows. This approach facilitates the analysis of workflows derived from an NLP corpus and reveals key methodological shifts over the past two decades, including the increasing emphasis on data analysis and the transition from feature engineering to ablation studies. Our work offers a validated technical framework for automated workflow generation, along with a novel, process-oriented perspective for the empirical investigation of evolving scientific paradigms. Source code and data are available at: https://github.com/ZH-heng/research_workflow.
- Abstract(参考訳): 研究ワークフローの自動生成は、研究の再現性の向上と「科学のためのAI」のパラダイムの加速に不可欠である。
しかし、既存の手法は通常、断片化された手続き的なコンポーネントを抽出するので、完全な研究ワークフローをキャプチャできない。
このギャップに対処するために、全文学術論文をマイニングすることで包括的な構造化された研究ワークフローを生成するエンド・ツー・エンドのフレームワークを提案する。
自然言語処理(NLP)分野におけるケーススタディとして、私たちの段落中心のアプローチでは、まずSciBERTを用いた肯定的非ラベル学習(PU)を用いてワークフロー記述段落を識別し、F1スコア0.9772を達成する。
次に、Flan-T5を用いてこれらの段落からワークフローフレーズを生成し、それぞれ0.4543、0.2877、0.4427のROUGE-1、ROUGE-2、ROUGE-Lスコアを得る。
次に、これらのフレーズをChatGPTを用いてデータ準備、データ処理、データ解析の段階に分類し、0.958の精度で分類する。
分類されたフレーズを文書内の文書位置にマッピングすることにより、最終的に研究ワークフロー全体の可読なビジュアルフローチャートを生成する。
このアプローチは、NLPコーパスから派生したワークフローの分析を促進し、データ分析の強調や、機能工学からアブレーション研究への移行など、過去20年間の重要な方法論的変化を明らかにする。
私たちの研究は、自動ワークフロー生成のための検証済みの技術フレームワークと、進化する科学パラダイムを実証的に調査するための、新しいプロセス指向の視点を提供しています。
ソースコードとデータは、https://github.com/ZH-heng/research_workflow.comで入手できる。
関連論文リスト
- ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Benchmarking Computer Science Survey Generation [18.844790013427282]
SurGE(Survey Generation Evaluation)は、コンピュータサイエンス領域における科学的サーベイ生成を評価するための新しいベンチマークである。
SurGEは,(1)トピック記述,専門家による調査,および参照参照の完全なセットを含む一連のテストインスタンスと,(2)検索プールとして機能する100万以上の論文からなる大規模学術コーパスから構成される。
さらに,情報カバレッジ,参照精度,構造組織,コンテンツ品質の4次元にわたる自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T15:45:10Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Chatting with Papers: A Hybrid Approach Using LLMs and Knowledge Graphs [3.68389405018277]
このデモでは、大規模な言語モデルと知識グラフを組み合わせて、コレクションによるナビゲーションをサポートする新しいワークフローのtextitGhostWriterが報告されている。
textitGhostWriterは、バックエンドの textitEverythingDataに基づいて、コレクションと'クエリとチャット'が可能なインターフェイスを提供する。
論文 参考訳(メタデータ) (2025-05-16T18:51:51Z) - Turning Conversations into Workflows: A Framework to Extract and Evaluate Dialog Workflows for Service AI Agents [65.36060818857109]
本稿では,過去の対話から対話を抽出し,評価するための新しい枠組みを提案する。
抽出プロセスは,(1)重要な手続き的要素に基づいて関連する会話を選択するための検索ステップ,(2)質問応答に基づくチェーン・オブ・シークレット(QA-CoT)プロンプトを用いた構造化ワークフロー生成プロセスの2つの主要な段階から構成される。
論文 参考訳(メタデータ) (2025-02-24T16:55:15Z) - Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Iterative NLP Query Refinement for Enhancing Domain-Specific Information Retrieval: A Case Study in Career Services [0.13980986259786224]
ニッチドメインにおける意味的関連文書の検索は、TF-IDFベースのシステムにとって大きな課題となる。
本稿では,Humber CollegeのキャリアサービスWebページに合わせて,反復的かつ半自動的なクエリリファインメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-22T15:57:35Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - Learning Context-Aware Service Representation for Service Recommendation
in Workflow Composition [6.17189383632496]
本稿では,ワークフロー開発プロセス全体でのサービス推奨に対して,NLPにインスパイアされた新たなアプローチを提案する。
ワークフロー構成プロセスは、ステップワイドでコンテキスト対応のサービス生成手順として形式化される。
サービス埋め込みは、NLPフィールドからディープラーニングモデルを適用することで学習される。
論文 参考訳(メタデータ) (2022-05-24T04:18:01Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。