Fugu-MT 論文翻訳(概要): Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data

論文の概要: Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data

arxiv url: http://arxiv.org/abs/2308.03107v1
Date: Sun, 6 Aug 2023 13:18:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 16:40:10.309879
Title: Embedding-based Retrieval with LLM for Effective Agriculture Information Extracting from Unstructured Data
Title（参考訳）: 非構造データからの効果的な農業情報抽出のためのLLMを用いた埋め込み型検索
Authors: Ruoling Peng, Kang Liu, Po Yang, Zhipeng Yuan, Shunbao Li
Abstract要約: 農業用文書から人的介入を最小限に抑えて構造化されたデータを抽出するために,ドメインに依存しない一般学習型大規模言語モデル(LLM)について検討する。既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。
参考スコア（独自算出の注目度）: 5.573704309892796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pest identification is a crucial aspect of pest control in agriculture. However, most farmers are not capable of accurately identifying pests in the field, and there is a limited number of structured data sources available for rapid querying. In this work, we explored using domain-agnostic general pre-trained large language model(LLM) to extract structured data from agricultural documents with minimal or no human intervention. We propose a methodology that involves text retrieval and filtering using embedding-based retrieval, followed by LLM question-answering to automatically extract entities and attributes from the documents, and transform them into structured data. In comparison to existing methods, our approach achieves consistently better accuracy in the benchmark while maintaining efficiency.
Abstract（参考訳）: 害虫識別は農業における害虫防除の重要な側面である。しかし、ほとんどの農家は現場の害虫を正確に特定できないため、迅速なクエリーを行うための構造化データソースは限られている。本研究では,人間による介入が最小限か全くない農業用文書から構造化データを抽出するために,ドメイン非依存の一般事前学習型大規模言語モデル(llm)を用いた。埋め込み型検索を用いてテキスト検索とフィルタリングを行う手法を提案し,続いてLCM質問応答を用いて文書からエンティティや属性を自動的に抽出し,構造化データに変換する手法を提案する。既存の手法と比較して,提案手法は効率を保ちながらベンチマークの精度を一貫して向上させる。

関連論文リスト

Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文参考訳（メタデータ） (2026-01-22T12:02:45Z)
Enhancing Transformer-Based Rerankers with Synthetic Data and LLM-Based Supervision [0.13999481573773073]
大きな言語モデル(LLM)は、その深いセマンティック理解と推論のために、再分類時に優れている。微調整の小さなタスク固有のモデルは、より効率的な代替手段だが、通常は手動でラベル付けされたデータに頼っている。本稿では,人間ラベルのクエリドキュメントペアの必要性を解消する新しいパイプラインを提案する。
論文参考訳（メタデータ） (2025-09-23T09:47:27Z)
ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [54.5729817345543]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文参考訳（メタデータ） (2025-05-26T10:31:26Z)
An AI-Powered Research Assistant in the Lab: A Practical Guide for Text Analysis Through Iterative Collaboration with LLMs [0.7255608805275865]
本稿では,LLMを用いた非構造化データの効率的な開発,テスト,適用のためのステップバイステップチュートリアルを提案する。我々は,データセットをレビューし,生命ドメインの分類を作成,即時かつ直接的な修正を通じて分類を評価・洗練し,分類を検証し,インターコーダ契約を評価し,データセット全体を高いインターコーダ信頼性で分類する手法を実証する。
論文参考訳（メタデータ） (2025-05-14T18:32:18Z)
Few-Shot Adaptation of Grounding DINO for Agricultural Domain [0.29998889086656577]
Grounding-DINOのようなオープンセットオブジェクト検出モデルは、テキストプロンプト入力に基づいて興味のある領域を検出する潜在的なソリューションを提供する。そこで本研究では,テキストエンコーダモジュールを除去することで,グラウンディング・ディノアーキテクチャを単純化する,効率的な数ショット適応手法を提案する。本手法は, 植物雑草の検出, 植物数, 昆虫の識別, 果実数, リモートセンシングタスクなど, 複数の農業データセットにまたがる優れた性能を実現する。
論文参考訳（メタデータ） (2025-04-09T19:57:25Z)
Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文参考訳（メタデータ） (2025-04-07T16:03:59Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Value Alignment from Unstructured Text [32.9140028463247]
構造化されていないテキストデータに表される暗黙的および明示的な値に,大規模言語モデル(LLM)を整合させる体系的なエンドツーエンド手法を提案する。提案手法は、スケーラブルな合成データ生成技術を用いて、非構造化データに存在する値にモデルを効果的に整合させる。提案手法は,LCMを文書内に埋め込まれた値に忠実に整合させ,他の手法に対する性能向上を示す。
論文参考訳（メタデータ） (2024-08-19T20:22:08Z)
CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。本稿では,新しい検証フレームワークであるCaLMを紹介する。我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文参考訳（メタデータ） (2024-06-08T06:04:55Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。 ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-19T03:51:10Z)
Information Extraction in Domain and Generic Documents: Findings from Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。 IEタスクに対するドキュメントのジャンルと長さの影響。両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文参考訳（メタデータ） (2023-06-30T20:43:27Z)
Interpretable Medical Diagnostics with Structured Data Extraction by Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-08T09:12:28Z)
STAR: Boosting Low-Resource Information Extraction by Structure-to-Text Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-05-24T12:15:19Z)
Productive Crop Field Detection: A New Dataset and Deep Learning Benchmark Results [1.2233362977312945]
精密農業において、生産的作物畑の検出は、農家が作業性能を評価するための必須の慣行である。従来の研究では、先進的な機械学習アルゴリズムを用いて、作物畑を検出する様々な方法が研究されている。本稿では,マシン操作とSentinel-2画像を組み合わせた高品質なデータセットを提案する。
論文参考訳（メタデータ） (2023-05-19T20:30:59Z)
Mixture of Soft Prompts for Controllable Data Generation [21.84489422361048]
直接予測ではなく,データ拡張のためのツールとして,ソフトプロンプトの混合(MSP)を提案する。提案手法は, 強いベースラインと比較した場合の3つのベンチマークに対して, 最先端の結果を得る。
論文参考訳（メタデータ） (2023-03-02T21:13:56Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。