論文の概要: Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables
- arxiv url: http://arxiv.org/abs/2403.04577v2
- Date: Fri, 02 May 2025 17:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.617257
- Title: Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables
- Title(参考訳): Wiki-TabNER: 名前付きエンティティ認識をウィキペディアテーブルに統合
- Authors: Aneta Koleva, Martin Ringsquandl, Ahmed Hatem, Thomas Runkler, Volker Tresp,
- Abstract要約: 新しいデータセットであるWiki-TabNERは、既存のベンチマークデータセットを強化するために提案されている。
本稿では,Wiki-TabNERデータセットとラベリングプロセスの特徴について述べる。
さらに,内部テーブルNERタスク上での新しい大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.330753799139845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interest in solving table interpretation tasks has grown over the years, yet it still relies on existing datasets that may be overly simplified. This is potentially reducing the effectiveness of the dataset for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To enrich the existing benchmark datasets, we extract and annotate a new, more challenging dataset. The proposed Wiki-TabNER dataset features complex tables containing several entities per cell, with named entities labeled using DBpedia classes. This dataset is specifically designed to address named entity recognition (NER) task within tables, but it can also be used as a more challenging dataset for evaluating the entity linking task. In this paper we describe the distinguishing features of the Wiki-TabNER dataset and the labeling process. In addition, we propose a prompting framework for evaluating the new large language models on the within tables NER task. Finally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed~dataset.
- Abstract(参考訳): テーブル解釈タスクの解決への関心は長年にわたって高まっているが、それでも過度に単純化される可能性のある既存のデータセットに依存している。
これにより、データセットの徹底的な評価の有効性が低下し、現実世界に現れるテーブルを正確に表現できない可能性がある。
既存のベンチマークデータセットを充実させるために、我々は、新しいより困難なデータセットを抽出し、注釈付けします。
提案したWiki-TabNERデータセットは、DBpediaクラスを使用してラベル付けされた名前付きエンティティを持つ、セル毎に複数のエンティティを含む複雑なテーブルを備えている。
このデータセットは、テーブル内の名前付きエンティティ認識(NER)タスクに対処するように特別に設計されているが、エンティティリンクタスクを評価するためのより困難なデータセットとしても使用できる。
本稿では,Wiki-TabNERデータセットとラベリングプロセスの区別機能について述べる。
さらに,NERタスク内における新しい大規模言語モデルの評価を行うためのプロンプトフレームワークを提案する。
最後に,モデルが直面する課題を把握し,提案した–データセットの限界を理解するために定性分析を行う。
関連論文リスト
- Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Observatory: Characterizing Embeddings of Relational Tables [15.808819332614712]
研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
論文 参考訳(メタデータ) (2023-10-05T00:58:45Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Eliminating Catastrophic Interference with Biased Competition [0.0]
本稿では,複雑なデータセットのマルチタスク特性を活用するモデルを提案する。
このモデルは,新たに作成したデータセット上でのタスク間の破滅的な干渉を排除し,視覚質問応答空間における競合的な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-07-03T16:15:15Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。