論文の概要: The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats
- arxiv url: http://arxiv.org/abs/2503.02650v1
- Date: Tue, 04 Mar 2025 14:14:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:25:01.580493
- Title: The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats
- Title(参考訳): 非構造化テキストの標準フォーマットへの変換における大規模言語モデルの有効性
- Authors: William Brach, Kristián Košťál, Michal Ries,
- Abstract要約: 本研究では,非構造化テキストを構造化形式に変換する大規模言語モデルの能力を体系的に評価する。
実験により、数発のプロンプトを持つGPT-4oがブレークスルー性能を達成することが明らかとなった。
これらの発見は、様々な領域にまたがる自動構造化データ生成の新たな可能性を開く。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The exponential growth of unstructured text data presents a fundamental challenge in modern data management and information retrieval. While Large Language Models (LLMs) have shown remarkable capabilities in natural language processing, their potential to transform unstructured text into standardized, structured formats remains largely unexplored - a capability that could revolutionize data processing workflows across industries. This study breaks new ground by systematically evaluating LLMs' ability to convert unstructured recipe text into the structured Cooklang format. Through comprehensive testing of four models (GPT-4o, GPT-4o-mini, Llama3.1:70b, and Llama3.1:8b), an innovative evaluation approach is introduced that combines traditional metrics (WER, ROUGE-L, TER) with specialized metrics for semantic element identification. Our experiments reveal that GPT-4o with few-shot prompting achieves breakthrough performance (ROUGE-L: 0.9722, WER: 0.0730), demonstrating for the first time that LLMs can reliably transform domain-specific unstructured text into structured formats without extensive training. Although model performance generally scales with size, we uncover surprising potential in smaller models like Llama3.1:8b for optimization through targeted fine-tuning. These findings open new possibilities for automated structured data generation across various domains, from medical records to technical documentation, potentially transforming the way organizations process and utilize unstructured information.
- Abstract(参考訳): 非構造化テキストデータの指数関数的成長は、現代のデータ管理と情報検索における根本的な課題である。
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示しているが、非構造化テキストを標準化された構造化フォーマットに変換する可能性はほとんど探索されていない。
本研究では、構造化されていないレシピテキストを構造化されたCooklang形式に変換するLLMの能力を体系的に評価することによって、新しい基盤を壊す。
4つのモデル(GPT-4o, GPT-4o-mini, Llama3.1:70b, Llama3.1:8b)の総合的なテストを通じて、従来のメトリクス(WER, ROUGE-L, TER)とセマンティック要素識別のための特別なメトリクスを組み合わせた革新的な評価手法が導入された。
実験の結果,GPT-4oは画期的な性能(ROUGE-L: 0.9722, WER: 0.0730)を達成し,LLMが広範に訓練することなく,ドメイン固有の非構造化テキストを構造化形式に確実に変換できることが確認された。
Llama3.1:8bのような小型モデルでは、目標とする微調整による最適化が期待できる可能性がある。
これらの発見は、医療記録から技術ドキュメントまで、さまざまな領域にまたがる自動構造化データ生成の新たな可能性を開き、組織が非構造化情報を処理し活用する方法を変える可能性がある。
関連論文リスト
- StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。
オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。
対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文 参考訳(メタデータ) (2024-06-15T12:48:00Z) - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - GPT Struct Me: Probing GPT Models on Narrative Entity Extraction [2.049592435988883]
我々は,2つの最先端言語モデル(GPT-3とGPT-3.5)の物語の抽出能力を評価する。
本研究はポルトガルの119のニュース記事を集めたText2Story Lusaデータセットを用いて行った。
論文 参考訳(メタデータ) (2023-11-24T16:19:04Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Unified Text Structuralization with Instruction-tuned Language Models [28.869098023025753]
テキストから様々な構造を抽出する大規模言語モデル(LLM)を提案する。
実験により、様々な言語や知識のデータセット上で、言語モデルが他の最先端の手法と同等に動作できることが示されている。
論文 参考訳(メタデータ) (2023-03-27T07:39:05Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。