論文の概要: Variable Extraction for Model Recovery in Scientific Literature
- arxiv url: http://arxiv.org/abs/2411.14569v1
- Date: Thu, 21 Nov 2024 20:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:22.655500
- Title: Variable Extraction for Model Recovery in Scientific Literature
- Title(参考訳): 科学的文献におけるモデル復元のための可変抽出法
- Authors: Chunwei Liu, Enrique Noriega-Atala, Adarsh Pyarelal, Clayton T Morrison, Mike Cafarella,
- Abstract要約: 学術出版物の全世界生産は年間500万記事を超えている。
文献を構成するアーティファクトをナビゲートし、解釈するための方法が必要です。
本稿では,疫学研究から数理モデル変数を抽出する方法について検討する。
- 参考スコア(独自算出の注目度): 2.7530206767431995
- License:
- Abstract: The global output of academic publications exceeds 5 million articles per year, making it difficult for humans to keep up with even a tiny fraction of scientific output. We need methods to navigate and interpret the artifacts -- texts, graphs, charts, code, models, and datasets -- that make up the literature. This paper evaluates various methods for extracting mathematical model variables from epidemiological studies, such as ``infection rate ($\alpha$),'' ``recovery rate ($\gamma$),'' and ``mortality rate ($\mu$).'' Variable extraction appears to be a basic task, but plays a pivotal role in recovering models from scientific literature. Once extracted, we can use these variables for automatic mathematical modeling, simulation, and replication of published results. We introduce a benchmark dataset comprising manually-annotated variable descriptions and variable values extracted from scientific papers. Based on this dataset, we present several baseline methods for variable extraction based on Large Language Models (LLMs) and rule-based information extraction systems. Our analysis shows that LLM-based solutions perform the best. Despite the incremental benefits of combining rule-based extraction outputs with LLMs, the leap in performance attributed to the transfer-learning and instruction-tuning capabilities of LLMs themselves is far more significant. This investigation demonstrates the potential of LLMs to enhance automatic comprehension of scientific artifacts and for automatic model recovery and simulation.
- Abstract(参考訳): 学術出版物のグローバルなアウトプットは年間500万記事を超えており、人間がほんのわずかの科学的アウトプットに追いつくことは困難である。
文献を構成するアーティファクト(テキスト、グラフ、チャート、コード、モデル、データセット)をナビゲートし、解釈するための方法が必要です。
本稿では, 疫学研究から数理モデル変数を抽出する様々な手法として, 「感染率(\alpha$), ''recovery rate(\gamma$), ''`mortality rate(\mu$) について検討する。
「可変抽出」は基本的な課題のようだが、科学的文献からモデルを復元する上で重要な役割を担っている。
一度抽出すると、これらの変数を自動数学的モデリング、シミュレーション、公開結果の複製に使うことができる。
本稿では,手動で注釈付き変数記述と,科学的論文から抽出した変数値からなるベンチマークデータセットを提案する。
本稿では,Large Language Models (LLM) とルールベース情報抽出システムに基づく変数抽出法について述べる。
LLMをベースとしたソリューションが最善であることを示す。
規則に基づく抽出出力とLLMの組み合わせによる漸進的な利点にもかかわらず、LLM自体のトランスファーラーニングと命令チューニング能力に起因する性能の飛躍は、はるかに重要である。
本研究は, LLMが科学的アーティファクトの自動理解を高め, モデル復元とシミュレーションを行う可能性を示すものである。
関連論文リスト
- Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Augmenting Human-Annotated Training Data with Large Language Model Generation and Distillation in Open-Response Assessment [4.788487793976781]
大規模言語モデル(LLM)は、テキスト分類タスクを低コストで自動化するのに役立つ。
対照的に、人間のコーディングは一般的により信頼性が高いが、大規模な調達には高価である。
両者の強みを生かしたハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2025-01-15T20:13:46Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Bayesian Active Learning for Discrete Latent Variable Models [19.852463786440122]
アクティブラーニングは、モデルのパラメータに適合するために必要なデータ量を削減しようとする。
潜在変数モデルは神経科学、心理学、その他の様々な工学、科学分野において重要な役割を果たす。
論文 参考訳(メタデータ) (2022-02-27T19:07:12Z) - Active Learning Methods for Efficient Hybrid Biophysical Variable
Retrieval [6.093845877765489]
カーネルベース機械学習回帰アルゴリズム (MLRA) は, 生体物理変数検索方式において潜在的に強力な手法である。
彼らは大規模なトレーニングデータセットを扱うのに苦労している。
アクティブラーニング(AL)メソッドは、データセットで最も有益なサンプルを選択することができます。
このレターは、管理可能なトレーニングデータセットで最適化された生体物理変数推定を達成するための6つのal法を導入する。
論文 参考訳(メタデータ) (2020-12-07T08:56:40Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。