論文の概要: Deep Learning Based Named Entity Recognition Models for Recipes
- arxiv url: http://arxiv.org/abs/2402.17447v1
- Date: Tue, 27 Feb 2024 12:03:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:36:21.777300
- Title: Deep Learning Based Named Entity Recognition Models for Recipes
- Title(参考訳): レシピの深層学習に基づく名前付きエンティティ認識モデル
- Authors: Mansi Goel, Ayush Agarwal, Shubham Agrawal, Janak Kapuriya, Akhil
Vamshi Konam, Rishabh Gupta, Shrey Rastogi, Niharika, and Ganesh Bagler
- Abstract要約: 名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
- 参考スコア(独自算出の注目度): 7.507956305171027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Food touches our lives through various endeavors, including flavor,
nourishment, health, and sustainability. Recipes are cultural capsules
transmitted across generations via unstructured text. Automated protocols for
recognizing named entities, the building blocks of recipe text, are of immense
value for various applications ranging from information extraction to novel
recipe generation. Named entity recognition is a technique for extracting
information from unstructured or semi-structured data with known labels.
Starting with manually-annotated data of 6,611 ingredient phrases, we created
an augmented dataset of 26,445 phrases cumulatively. Simultaneously, we
systematically cleaned and analyzed ingredient phrases from RecipeDB, the
gold-standard recipe data repository, and annotated them using the Stanford
NER. Based on the analysis, we sampled a subset of 88,526 phrases using a
clustering-based approach while preserving the diversity to create the
machine-annotated dataset. A thorough investigation of NER approaches on these
three datasets involving statistical, fine-tuning of deep learning-based
language models and few-shot prompting on large language models (LLMs) provides
deep insights. We conclude that few-shot prompting on LLMs has abysmal
performance, whereas the fine-tuned spaCy-transformer emerges as the best model
with macro-F1 scores of 95.9%, 96.04%, and 95.71% for the manually-annotated,
augmented, and machine-annotated datasets, respectively.
- Abstract(参考訳): 食べ物は、風味、栄養、健康、持続可能性など、さまざまな取り組みを通じて私たちの生活に触れます。
レシピは、非構造化テキストを介して世代にわたって伝達される文化カプセルである。
名前付きエンティティを認識するための自動プロトコルであるレシピテキストのビルディングブロックは、情報抽出から新しいレシピ生成に至るまで、さまざまなアプリケーションにとって大きな価値を持つ。
名前付きエンティティ認識は、未知または半構造化データから既知のラベルで情報を抽出する技術である。
6,611句の注釈付きデータから,26,445句の累積的な拡張データセットを作成した。
同時に,レシピデータベースであるgold-standard recipe data repository から成分句を整理・分析し,stanford ner を用いてアノテートした。
この分析に基づいて,マシンアノテートデータセットの作成には多様性を維持しつつ,クラスタリングに基づく手法を用いて88,526句のサブセットをサンプリングした。
深層学習に基づく言語モデルの統計的、微調整と、大規模言語モデル(LLM)へのわずかなプロンプトを含む、これらの3つのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を提供する。
llms上でのマイショット・プロンプトは漸近的性能を持つが,マクロf1スコアの95.9%,96.04%,95.71%が手動アノテーション付き,拡張型,機械アノテーション付きデータセットにおいて,微調整されたスペイサーが最良モデルとして出現する。
関連論文リスト
- Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - Improving Text Embeddings with Large Language Models [63.503320030117145]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - CrossLingR: A Comprehensive Multilingual Receipt Dataset for
Cross-Language Information Extraction and Classification [15.434785564716796]
本研究は,レシート情報抽出と項目分類の分野における進歩を促進するために設計された,拡張的で斬新な多言語データセットを提案する。
本データセットは,47,720個の注釈付きサンプルを包含し,商品名,価格やブランドなどの関連属性を詳述し,44種類の製品カテゴリに分類した。
鍵情報抽出と項目分類のタスクにおいて,F1スコア0.76,精度0.68で証明された,重要な有効性を示す先駆的手法であるInstructLLaMA法を公表する。
論文 参考訳(メタデータ) (2023-09-18T14:18:19Z) - Feature Extraction Using Deep Generative Models for Bangla Text
Classification on a New Comprehensive Dataset [0.0]
バングラ語は世界で6番目に広く話されている言語であるにもかかわらず、テキストデータセットの不足によりほとんど注目を集めていない。
我々は7つのカテゴリで212,184のBangla文書の包括的なデータセットを収集し、注釈を付け、作成し、公開しました。
論文 参考訳(メタデータ) (2023-08-21T22:18:09Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - TASTEset -- Recipe Dataset and Food Entities Recognition Benchmark [1.0569625612398386]
NERモデルは、レシピの処理に役立つ様々なタイプのエンティティを発見または推測することが期待されている。
データセットは700のレシピで構成され、13,000以上のエンティティを抽出する。
私たちは、名前付きエンティティ認識モデルの最先端のベースラインをいくつか提供しています。
論文 参考訳(メタデータ) (2022-04-16T10:52:21Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。