論文の概要: Leveraging Vision Capabilities of Multimodal LLMs for Automated Data Extraction from Plots
- arxiv url: http://arxiv.org/abs/2503.12326v1
- Date: Sun, 16 Mar 2025 02:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:17.668884
- Title: Leveraging Vision Capabilities of Multimodal LLMs for Automated Data Extraction from Plots
- Title(参考訳): プロットからの自動データ抽出のためのマルチモーダルLCMの高機能化
- Authors: Maciej P. Polak, Dane Morgan,
- Abstract要約: 現在の大規模言語モデルでは,プロットから正確にデータを抽出することが可能であることを示す。
この能力は事前訓練されたモデルに固有のものであり、ゼロショットのプロンプトのチェーン・オブ・シークエンスで達成できる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Automated data extraction from research texts has been steadily improving, with the emergence of large language models (LLMs) accelerating progress even further. Extracting data from plots in research papers, however, has been such a complex task that it has predominantly been confined to manual data extraction. We show that current multimodal large language models, with proper instructions and engineered workflows, are capable of accurately extracting data from plots. This capability is inherent to the pretrained models and can be achieved with a chain-of-thought sequence of zero-shot engineered prompts we call PlotExtract, without the need to fine-tune. We demonstrate PlotExtract here and assess its performance on synthetic and published plots. We consider only plots with two axes in this analysis. For plots identified as extractable, PlotExtract finds points with over 90% precision (and around 90% recall) and errors in x and y position of around 5% or lower. These results prove that multimodal LLMs are a viable path for high-throughput data extraction for plots and in many circumstances can replace the current manual methods of data extraction.
- Abstract(参考訳): 研究用テキストからの自動データ抽出は着実に改善されており、大規模言語モデル(LLM)の出現により、さらなる進歩が加速している。
しかし、研究論文でプロットからデータを抽出することは、非常に複雑な作業であり、主に手動データ抽出に限られている。
提案手法では,従来のマルチモーダルな大規模言語モデルにおいて,プロットから正確にデータを抽出できることが示されている。
この機能は事前訓練されたモデルに固有のもので、微調整の必要なく、PlotExtractと呼ぶゼロショットエンジニアリングプロンプトのチェーンシーケンスで実現できる。
ここではPlotExtractを実演し、その性能を合成および公開プロットで評価する。
この分析では、2つの軸を持つプロットのみを考える。
抽出可能なプロットについて、PlotExtractは90%以上の精度(および約90%のリコール)と x と y の誤差が約5%以下の点を見つける。
これらの結果から,マルチモーダル LLM はプロットの高スループットデータ抽出に有効な経路であり,多くの状況において現在の手動データ抽出法を置き換えることができる。
関連論文リスト
- Distilled Pruning: Using Synthetic Data to Win the Lottery [2.4366811507669124]
この研究は、蒸留データを用いてディープラーニングモデルを刈り取る新しいアプローチを導入する。
当社のアプローチでは,CIFAR-10上でのイテレーティブマグニチュード・プルーニングよりも5倍の速度で,スパースでトレーニング可能なワークを見つけることができる。
実験結果は、資源効率のよいニューラルネットワークプルーニング、モデル圧縮、ニューラルネットワーク探索に蒸留データを使用することの可能性を強調した。
論文 参考訳(メタデータ) (2023-07-07T03:07:28Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Extracting Accurate Materials Data from Research Papers with
Conversational Language Models and Prompt Engineering [0.0]
ChatExtractは、初期作業とバックグラウンドを最小限にして、非常に正確なデータ抽出を完全に自動化することができる。
材料データに対するテストでは、最高の会話型LLMから90%近い精度とリコールが得られます。
論文 参考訳(メタデータ) (2023-03-07T17:54:53Z) - Bag of Tricks for Training Data Extraction from Language Models [98.40637430115204]
公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-02-09T06:46:42Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - An Effective System for Multi-format Information Extraction [1.027461951217988]
2021年の言語とインテリジェンスチャレンジは、異なる次元からの情報抽出を評価するように設計されている。
本稿では,このマルチフォーマット情報抽出コンペティションタスクのシステムについて述べる。
本システムでは,このマルチフォーマット情報抽出作業において,テストセットのリーダボード上で4位にランクインしている。
論文 参考訳(メタデータ) (2021-08-16T08:25:17Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - APEX-Net: Automatic Plot Extractor Network [24.299931323012757]
プロット抽出問題を解決するために,新しい損失関数を持つ深層学習型フレームワークapex-netを提案する。
プロット画像と生データの両方を含む新しい大規模データセットAPEX-1Mを紹介します。
提案手法では,プロット画像上でネットワークの視覚的な結果を示し,プロットの形状をかなり抽出できることを実証する。
論文 参考訳(メタデータ) (2021-01-15T17:02:36Z) - Scaling Systematic Literature Reviews with Machine Learning Pipelines [57.82662094602138]
体系的なレビューは、科学的文書からデータを抽出する。
これらの側面をそれぞれ自動化するパイプラインを構築し、多くの人間時間対システム品質トレードオフを実験します。
人間の専門的アノテーションの2週間だけで、パイプラインシステム全体の驚くほどの精度と一般性が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-09T16:19:42Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - At Which Level Should We Extract? An Empirical Analysis on Extractive
Document Summarization [110.54963847339775]
本研究は,全文を抽出する際,不必要な問題や冗長性が存在することを示す。
選挙区解析木に基づくサブセグメント単位の抽出を提案する。
論文 参考訳(メタデータ) (2020-04-06T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。