論文の概要: TEXT2DB: Integration-Aware Information Extraction with Large Language Model Agents
- arxiv url: http://arxiv.org/abs/2510.24014v1
- Date: Tue, 28 Oct 2025 02:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.726539
- Title: TEXT2DB: Integration-Aware Information Extraction with Large Language Model Agents
- Title(参考訳): TEXT2DB:大規模言語モデルエージェントによる統合型情報抽出
- Authors: Yizhu Jiao, Sha Li, Sizhe Zhou, Heng Ji, Jiawei Han,
- Abstract要約: 本稿では,IE 出力と対象データベースの統合を重視した IE TEXT2DB の新たな定式化を提案する。
データインフィル、行数、列の追加といった一般的な要求を特徴とする新しいベンチマークを導入する。
実験によると、OPALは異なるコードプランを生成し、必要なIEモデルを呼び出すことで、多様なデータベーススキーマにうまく適応できる。
- 参考スコア(独自算出の注目度): 64.11547566154947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of information extraction (IE) is to extract structured knowledge from text. However, it is often not straightforward to utilize IE output due to the mismatch between the IE ontology and the downstream application needs. We propose a new formulation of IE TEXT2DB that emphasizes the integration of IE output and the target database (or knowledge base). Given a user instruction, a document set, and a database, our task requires the model to update the database with values from the document set to satisfy the user instruction. This task requires understanding user instructions for what to extract and adapting to the given DB/KB schema for how to extract on the fly. To evaluate this new task, we introduce a new benchmark featuring common demands such as data infilling, row population, and column addition. In addition, we propose an LLM agent framework OPAL (Observe-PlanAnalyze LLM) which includes an Observer component that interacts with the database, the Planner component that generates a code-based plan with calls to IE models, and the Analyzer component that provides feedback regarding code quality before execution. Experiments show that OPAL can successfully adapt to diverse database schemas by generating different code plans and calling the required IE models. We also highlight difficult cases such as dealing with large databases with complex dependencies and extraction hallucination, which we believe deserve further investigation. Source code: https://github.com/yzjiao/Text2DB
- Abstract(参考訳): 情報抽出(IE)の課題は、テキストから構造化された知識を抽出することである。
しかし、IEオントロジーとダウンストリームアプリケーションのニーズのミスマッチのため、IE出力を利用するのは簡単ではないことが多い。
本稿では,IE 出力と対象データベース(あるいは知識ベース)の統合を重視した IE TEXT2DB の新たな定式化を提案する。
ユーザ命令、ドキュメントセット、データベースが与えられた場合、私たちのタスクは、ユーザ命令を満たすために、ドキュメントセットの値でデータベースを更新するモデルが必要です。
このタスクでは、ユーザが何を抽出するかを理解し、与えられたDB/KBスキーマに適応して、オンザフライでどのように抽出するかを理解する必要があります。
この新たな課題を評価するために,データ入力,行数,列の追加といった共通要求を特徴とする新しいベンチマークを導入する。
さらに、データベースと対話するObserverコンポーネント、IEモデルを呼び出すコードベースのプランを生成するPlannerコンポーネント、実行前にコード品質に関するフィードバックを提供するAnalyzerコンポーネントを含むLLMエージェントフレームワークOPAL(Observe-PlanAnalyze LLM)を提案する。
実験によると、OPALは異なるコードプランを生成し、必要なIEモデルを呼び出すことで、多様なデータベーススキーマにうまく適応できる。
また、複雑な依存関係を持つ大規模データベースの処理や幻覚の抽出といった、さらなる調査に値する難しいケースについても強調する。
ソースコード:https://github.com/yzjiao/Text2DB
関連論文リスト
- Text2Schema: Filling the Gap in Designing Database Table Structures based on Natural Language [22.15408079332362]
データベースのバックグラウンドを持たない人は、通常、ファイルシステムやExcelデータ管理のようなツールに依存します。
データベースシステムは強力な管理能力を持っているが、ユーザーからの高度な専門知識を必要とする。
論文 参考訳(メタデータ) (2025-03-31T09:39:19Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - CodexGraph: Bridging Large Language Models and Code Repositories via Code Graph Databases [13.733229886643041]
大きな言語モデル(LLM)は、HumanEvalやMBPPのようなスタンドアロンのコードタスクに優れていますが、コードリポジトリ全体の処理に苦労しています。
類似性に基づく検索は複雑なタスクではリコールが低いことが多いが、手動ツールやAPIは通常タスク固有であり、専門家の知識を必要とする。
我々は,LLMエージェントをコードリポジトリから抽出したグラフデータベースインターフェースと統合するシステムであるCodexGraphを紹介する。
論文 参考訳(メタデータ) (2024-08-07T17:13:59Z) - ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - AskYourDB: An end-to-end system for querying and visualizing relational
databases using natural language [0.0]
複雑な自然言語をSQLに変換するという課題に対処する意味解析手法を提案する。
我々は、モデルが本番環境にデプロイされたときに重要な部分を占める様々な前処理と後処理のステップによって、最先端のモデルを修正した。
製品がビジネスで利用できるようにするために、クエリ結果に自動視覚化フレームワークを追加しました。
論文 参考訳(メタデータ) (2022-10-16T13:31:32Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。