論文の概要: An LLM Agent-Based Complex Semantic Table Annotation Approach
- arxiv url: http://arxiv.org/abs/2508.12868v1
- Date: Mon, 18 Aug 2025 12:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.28001
- Title: An LLM Agent-Based Complex Semantic Table Annotation Approach
- Title(参考訳): LLMエージェントを用いた複合意味表アノテーション手法
- Authors: Yilin Geng, Shujing Wang, Chuan Wang, Keqing He, Yanfei Lv, Ying Wang, Zaiwen Feng, Xiaoying Bai,
- Abstract要約: 本稿では,LLMを用いたカラム型エージェント手法を提案する。
CTAとCell Entity。
CEA。
ReActフレームワークに基づいて、調整されたプロンプトで5つの外部メトリクスを設計、実装します。
冗長アノテーションを減らすためにLevenshtein距離を利用することで、時間コストの70%削減とLLMトークンの使用率の60%削減を実現した。
- 参考スコア(独自算出の注目度): 13.427066390210538
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Semantic Table Annotation (STA) task, which includes Column Type Annotation (CTA) and Cell Entity Annotation (CEA), maps table contents to ontology entities and plays important roles in various semantic applications. However, complex tables often pose challenges such as semantic loss of column names or cell values, strict ontological hierarchy requirements, homonyms, spelling errors, and abbreviations, which hinder annotation accuracy. To address these issues, this paper proposes an LLM-based agent approach for CTA and CEA. We design and implement five external tools with tailored prompts based on the ReAct framework, enabling the STA agent to dynamically select suitable annotation strategies depending on table characteristics. Experiments are conducted on the Tough Tables and BiodivTab datasets from the SemTab challenge, which contain the aforementioned challenges. Our method outperforms existing approaches across various metrics. Furthermore, by leveraging Levenshtein distance to reduce redundant annotations, we achieve a 70% reduction in time costs and a 60% reduction in LLM token usage, providing an efficient and cost-effective solution for STA.
- Abstract(参考訳): 列型アノテーション(CTA)とセルエンティティアノテーション(CEA)を含むセマンティックテーブルアノテーション(STA)タスクは、テーブル内容をオントロジーエンティティにマップし、さまざまなセマンティックアプリケーションで重要な役割を果たす。
しかし、複雑なテーブルは、列名やセル値のセマンティックな損失、厳密なオンロジカルな階層構造要件、ホモニム、スペルエラー、短縮といった課題を生じさせ、アノテーションの精度を損なう。
これらの問題に対処するために,本論文では,CTA と CEA のための LLM ベースのエージェントアプローチを提案する。
我々は、ReActフレームワークに基づいて、調整されたプロンプトを持つ5つの外部ツールを設計、実装し、STAエージェントがテーブル特性に応じて適切なアノテーション戦略を動的に選択できるようにする。
実験は、前述の課題を含むSemTabチャレンジのTough TablesとBiodivTabデータセットで実施されている。
提案手法は,様々な指標において既存手法より優れている。
さらに, 冗長アノテーションの削減にLevenshtein距離を活用することで, 時間コストの70%削減, LLMトークンの使用率の60%削減を実現し, STAの効率的で費用対効果の高いソリューションを提供する。
関連論文リスト
- LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。