論文の概要: Deep Learning Based Named Entity Recognition Models for Recipes
- arxiv url: http://arxiv.org/abs/2402.17447v1
- Date: Tue, 27 Feb 2024 12:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:36:21.777300
- Title: Deep Learning Based Named Entity Recognition Models for Recipes
- Title(参考訳): レシピの深層学習に基づく名前付きエンティティ認識モデル
- Authors: Mansi Goel, Ayush Agarwal, Shubham Agrawal, Janak Kapuriya, Akhil
Vamshi Konam, Rishabh Gupta, Shrey Rastogi, Niharika, and Ganesh Bagler
- Abstract要約: 名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
- 参考スコア(独自算出の注目度): 7.507956305171027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Food touches our lives through various endeavors, including flavor,
nourishment, health, and sustainability. Recipes are cultural capsules
transmitted across generations via unstructured text. Automated protocols for
recognizing named entities, the building blocks of recipe text, are of immense
value for various applications ranging from information extraction to novel
recipe generation. Named entity recognition is a technique for extracting
information from unstructured or semi-structured data with known labels.
Starting with manually-annotated data of 6,611 ingredient phrases, we created
an augmented dataset of 26,445 phrases cumulatively. Simultaneously, we
systematically cleaned and analyzed ingredient phrases from RecipeDB, the
gold-standard recipe data repository, and annotated them using the Stanford
NER. Based on the analysis, we sampled a subset of 88,526 phrases using a
clustering-based approach while preserving the diversity to create the
machine-annotated dataset. A thorough investigation of NER approaches on these
three datasets involving statistical, fine-tuning of deep learning-based
language models and few-shot prompting on large language models (LLMs) provides
deep insights. We conclude that few-shot prompting on LLMs has abysmal
performance, whereas the fine-tuned spaCy-transformer emerges as the best model
with macro-F1 scores of 95.9%, 96.04%, and 95.71% for the manually-annotated,
augmented, and machine-annotated datasets, respectively.
- Abstract(参考訳): 食べ物は、風味、栄養、健康、持続可能性など、さまざまな取り組みを通じて私たちの生活に触れます。
レシピは、非構造化テキストを介して世代にわたって伝達される文化カプセルである。
名前付きエンティティを認識するための自動プロトコルであるレシピテキストのビルディングブロックは、情報抽出から新しいレシピ生成に至るまで、さまざまなアプリケーションにとって大きな価値を持つ。
名前付きエンティティ認識は、未知または半構造化データから既知のラベルで情報を抽出する技術である。
6,611句の注釈付きデータから,26,445句の累積的な拡張データセットを作成した。
同時に,レシピデータベースであるgold-standard recipe data repository から成分句を整理・分析し,stanford ner を用いてアノテートした。
この分析に基づいて,マシンアノテートデータセットの作成には多様性を維持しつつ,クラスタリングに基づく手法を用いて88,526句のサブセットをサンプリングした。
深層学習に基づく言語モデルの統計的、微調整と、大規模言語モデル(LLM)へのわずかなプロンプトを含む、これらの3つのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を提供する。
llms上でのマイショット・プロンプトは漸近的性能を持つが,マクロf1スコアの95.9%,96.04%,95.71%が手動アノテーション付き,拡張型,機械アノテーション付きデータセットにおいて,微調整されたスペイサーが最良モデルとして出現する。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification [14.386767741945256]
AMuRDは、レシートから情報を取り出すために特別に設計された、新しい多言語人間アノテーション付きデータセットである。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
論文 参考訳(メタデータ) (2023-09-18T14:18:19Z) - Feature Extraction Using Deep Generative Models for Bangla Text
Classification on a New Comprehensive Dataset [0.0]
バングラ語は世界で6番目に広く話されている言語であるにもかかわらず、テキストデータセットの不足によりほとんど注目を集めていない。
我々は7つのカテゴリで212,184のBangla文書の包括的なデータセットを収集し、注釈を付け、作成し、公開しました。
論文 参考訳(メタデータ) (2023-08-21T22:18:09Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - TASTEset -- Recipe Dataset and Food Entities Recognition Benchmark [1.0569625612398386]
NERモデルは、レシピの処理に役立つ様々なタイプのエンティティを発見または推測することが期待されている。
データセットは700のレシピで構成され、13,000以上のエンティティを抽出する。
私たちは、名前付きエンティティ認識モデルの最先端のベースラインをいくつか提供しています。
論文 参考訳(メタデータ) (2022-04-16T10:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。