論文の概要: Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data
- arxiv url: http://arxiv.org/abs/2308.03107v1
- Date: Sun, 6 Aug 2023 13:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:40:10.309879
- Title: Embedding-based Retrieval with LLM for Effective Agriculture Information
Extracting from Unstructured Data
- Title(参考訳): 非構造データからの効果的な農業情報抽出のためのLLMを用いた埋め込み型検索
- Authors: Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li
- Abstract要約: 農業用文書から人的介入を最小限に抑えて構造化されたデータを抽出するために,ドメインに依存しない一般学習型大規模言語モデル(LLM)について検討する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
- 参考スコア(独自算出の注目度): 5.573704309892796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pest identification is a crucial aspect of pest control in agriculture.
However, most farmers are not capable of accurately identifying pests in the
field, and there is a limited number of structured data sources available for
rapid querying. In this work, we explored using domain-agnostic general
pre-trained large language model(LLM) to extract structured data from
agricultural documents with minimal or no human intervention. We propose a
methodology that involves text retrieval and filtering using embedding-based
retrieval, followed by LLM question-answering to automatically extract entities
and attributes from the documents, and transform them into structured data. In
comparison to existing methods, our approach achieves consistently better
accuracy in the benchmark while maintaining efficiency.
- Abstract(参考訳): 害虫識別は農業における害虫防除の重要な側面である。
しかし、ほとんどの農家は現場の害虫を正確に特定できないため、迅速なクエリーを行うための構造化データソースは限られている。
本研究では,人間による介入が最小限か全くない農業用文書から構造化データを抽出するために,ドメイン非依存の一般事前学習型大規模言語モデル(llm)を用いた。
埋め込み型検索を用いてテキスト検索とフィルタリングを行う手法を提案し,続いてLCM質問応答を用いて文書からエンティティや属性を自動的に抽出し,構造化データに変換する手法を提案する。
既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
関連論文リスト
- TnT-LLM: Text Mining at Scale with Large Language Models [24.731544646232962]
大規模言語モデル(LLM)は、最小限の努力でエンドツーエンドのラベル生成と割り当てのプロセスを自動化する。
我々は,TnT-LLMが最先端のベースラインと比較した場合,より正確で関連性の高いラベルを生成することを示す。
また、現実のアプリケーションにおける大規模テキストマイニングにLLMを使うことの課題と機会に関する実践的経験と洞察を共有します。
論文 参考訳(メタデータ) (2024-03-18T18:45:28Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Productive Crop Field Detection: A New Dataset and Deep Learning
Benchmark Results [1.2233362977312945]
精密農業において、生産的作物畑の検出は、農家が作業性能を評価するための必須の慣行である。
従来の研究では、先進的な機械学習アルゴリズムを用いて、作物畑を検出する様々な方法が研究されている。
本稿では,マシン操作とSentinel-2画像を組み合わせた高品質なデータセットを提案する。
論文 参考訳(メタデータ) (2023-05-19T20:30:59Z) - Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。
提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文 参考訳(メタデータ) (2023-03-02T21:13:56Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。