論文の概要: Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data
- arxiv url: http://arxiv.org/abs/2308.03107v1
- Date: Sun, 6 Aug 2023 13:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:40:10.309879
- Title: Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data
- Title(参考訳): 非構造データからの効果的な農業情報抽出のためのLLMを用いた埋め込み型検索
- Authors: Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li
- Abstract要約: 農業用文書から人的介入を最小限に抑えて構造化されたデータを抽出するために,ドメインに依存しない一般学習型大規模言語モデル(LLM)について検討する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
- 参考スコア(独自算出の注目度): 5.573704309892796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pest identification is a crucial aspect of pest control in agriculture.
However, most farmers are not capable of accurately identifying pests in the
field, and there is a limited number of structured data sources available for
rapid querying. In this work, we explored using domain-agnostic general
pre-trained large language model(LLM) to extract structured data from
agricultural documents with minimal or no human intervention. We propose a
methodology that involves text retrieval and filtering using embedding-based
retrieval, followed by LLM question-answering to automatically extract entities
and attributes from the documents, and transform them into structured data. In
comparison to existing methods, our approach achieves consistently better
accuracy in the benchmark while maintaining efficiency.
- Abstract(参考訳): 害虫識別は農業における害虫防除の重要な側面である。
しかし、ほとんどの農家は現場の害虫を正確に特定できないため、迅速なクエリーを行うための構造化データソースは限られている。
本研究では,人間による介入が最小限か全くない農業用文書から構造化データを抽出するために,ドメイン非依存の一般事前学習型大規模言語モデル(llm)を用いた。
埋め込み型検索を用いてテキスト検索とフィルタリングを行う手法を提案し,続いてLCM質問応答を用いて文書からエンティティや属性を自動的に抽出し,構造化データに変換する手法を提案する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Value Alignment from Unstructured Text [32.9140028463247]
構造化されていないテキストデータに表される暗黙的および明示的な値に,大規模言語モデル(LLM)を整合させる体系的なエンドツーエンド手法を提案する。
提案手法は、スケーラブルな合成データ生成技術を用いて、非構造化データに存在する値にモデルを効果的に整合させる。
提案手法は,LCMを文書内に埋め込まれた値に忠実に整合させ,他の手法に対する性能向上を示す。
論文 参考訳(メタデータ) (2024-08-19T20:22:08Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Productive Crop Field Detection: A New Dataset and Deep Learning
Benchmark Results [1.2233362977312945]
精密農業において、生産的作物畑の検出は、農家が作業性能を評価するための必須の慣行である。
従来の研究では、先進的な機械学習アルゴリズムを用いて、作物畑を検出する様々な方法が研究されている。
本稿では,マシン操作とSentinel-2画像を組み合わせた高品質なデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-19T20:30:59Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。