論文の概要: Deep Learning Based Named Entity Recognition Models for Recipes
- arxiv url: http://arxiv.org/abs/2402.17447v2
- Date: Thu, 6 Jun 2024 07:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 21:02:35.743607
- Title: Deep Learning Based Named Entity Recognition Models for Recipes
- Title(参考訳): レシピの深層学習に基づく名前付きエンティティ認識モデル
- Authors: Mansi Goel, Ayush Agarwal, Shubham Agrawal, Janak Kapuriya, Akhil Vamshi Konam, Rishabh Gupta, Shrey Rastogi, Niharika, Ganesh Bagler,
- Abstract要約: 名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
- 参考スコア(独自算出の注目度): 7.507956305171027
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Food touches our lives through various endeavors, including flavor, nourishment, health, and sustainability. Recipes are cultural capsules transmitted across generations via unstructured text. Automated protocols for recognizing named entities, the building blocks of recipe text, are of immense value for various applications ranging from information extraction to novel recipe generation. Named entity recognition is a technique for extracting information from unstructured or semi-structured data with known labels. Starting with manually-annotated data of 6,611 ingredient phrases, we created an augmented dataset of 26,445 phrases cumulatively. Simultaneously, we systematically cleaned and analyzed ingredient phrases from RecipeDB, the gold-standard recipe data repository, and annotated them using the Stanford NER. Based on the analysis, we sampled a subset of 88,526 phrases using a clustering-based approach while preserving the diversity to create the machine-annotated dataset. A thorough investigation of NER approaches on these three datasets involving statistical, fine-tuning of deep learning-based language models and few-shot prompting on large language models (LLMs) provides deep insights. We conclude that few-shot prompting on LLMs has abysmal performance, whereas the fine-tuned spaCy-transformer emerges as the best model with macro-F1 scores of 95.9%, 96.04%, and 95.71% for the manually-annotated, augmented, and machine-annotated datasets, respectively.
- Abstract(参考訳): 食べ物は、フレーバー、栄養、健康、持続可能性など、さまざまな取り組みを通じて私たちの生活に触れます。
レシピは、構造化されていないテキストを介して世代間で伝達される文化カプセルである。
名前付きエンティティを認識するための自動プロトコルであるレシピテキストのビルディングブロックは、情報抽出から新しいレシピ生成に至るまで、さまざまなアプリケーションにとって大きな価値を持つ。
名前付きエンティティ認識は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
6,611句を手動で注釈付けしたデータから,26,445句を累積的にデータセット化した。
同時に,ゴールドスタンダードレシピデータレポジトリRecipeDBの成分句を整理,解析し,スタンフォードNERを用いて注釈付けした。
この分析に基づいて,クラスタリングに基づくアプローチを用いて88,526句のサブセットをサンプリングした。
深層学習に基づく言語モデルの統計的、微調整と、大規模言語モデル(LLM)へのわずかなプロンプトを含む、これらの3つのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を提供する。
一方、微調整されたpaCy変換器は、手動で注釈付けされたデータセット、拡張されたデータセット、および機械で注釈付けされたデータセットに対して、95.9%、96.04%、95.71%のマクロF1スコアを持つ最良のモデルとして現れる。
関連論文リスト
- Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Distantly Supervised Morpho-Syntactic Model for Relation Extraction [0.27195102129094995]
テキストから制約のない関係の集合を抽出し分類する手法を提案する。
ウィキデータとウィキペディア上に構築された6つのデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-01-18T14:17:40Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification [14.386767741945256]
AMuRDは、レシートから情報を取り出すために特別に設計された、新しい多言語人間アノテーション付きデータセットである。
各サンプルには、アイテム名や価格、ブランドなどの属性のアノテーションが含まれている。
この詳細なアノテーションはレシート上の各項目の包括的な理解を促進する。
論文 参考訳(メタデータ) (2023-09-18T14:18:19Z) - Feature Extraction Using Deep Generative Models for Bangla Text
Classification on a New Comprehensive Dataset [0.0]
バングラ語は世界で6番目に広く話されている言語であるにもかかわらず、テキストデータセットの不足によりほとんど注目を集めていない。
我々は7つのカテゴリで212,184のBangla文書の包括的なデータセットを収集し、注釈を付け、作成し、公開しました。
論文 参考訳(メタデータ) (2023-08-21T22:18:09Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - TASTEset -- Recipe Dataset and Food Entities Recognition Benchmark [1.0569625612398386]
NERモデルは、レシピの処理に役立つ様々なタイプのエンティティを発見または推測することが期待されている。
データセットは700のレシピで構成され、13,000以上のエンティティを抽出する。
私たちは、名前付きエンティティ認識モデルの最先端のベースラインをいくつか提供しています。
論文 参考訳(メタデータ) (2022-04-16T10:52:21Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。