論文の概要: Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables
- arxiv url: http://arxiv.org/abs/2403.04577v2
- Date: Fri, 02 May 2025 17:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.617257
- Title: Wiki-TabNER: Integrating Named Entity Recognition into Wikipedia Tables
- Title(参考訳): Wiki-TabNER: 名前付きエンティティ認識をウィキペディアテーブルに統合
- Authors: Aneta Koleva, Martin Ringsquandl, Ahmed Hatem, Thomas Runkler, Volker Tresp,
- Abstract要約: 新しいデータセットであるWiki-TabNERは、既存のベンチマークデータセットを強化するために提案されている。
本稿では,Wiki-TabNERデータセットとラベリングプロセスの特徴について述べる。
さらに,内部テーブルNERタスク上での新しい大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.330753799139845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interest in solving table interpretation tasks has grown over the years, yet it still relies on existing datasets that may be overly simplified. This is potentially reducing the effectiveness of the dataset for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To enrich the existing benchmark datasets, we extract and annotate a new, more challenging dataset. The proposed Wiki-TabNER dataset features complex tables containing several entities per cell, with named entities labeled using DBpedia classes. This dataset is specifically designed to address named entity recognition (NER) task within tables, but it can also be used as a more challenging dataset for evaluating the entity linking task. In this paper we describe the distinguishing features of the Wiki-TabNER dataset and the labeling process. In addition, we propose a prompting framework for evaluating the new large language models on the within tables NER task. Finally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed~dataset.
- Abstract(参考訳): テーブル解釈タスクの解決への関心は長年にわたって高まっているが、それでも過度に単純化される可能性のある既存のデータセットに依存している。
これにより、データセットの徹底的な評価の有効性が低下し、現実世界に現れるテーブルを正確に表現できない可能性がある。
既存のベンチマークデータセットを充実させるために、我々は、新しいより困難なデータセットを抽出し、注釈付けします。
提案したWiki-TabNERデータセットは、DBpediaクラスを使用してラベル付けされた名前付きエンティティを持つ、セル毎に複数のエンティティを含む複雑なテーブルを備えている。
このデータセットは、テーブル内の名前付きエンティティ認識(NER)タスクに対処するように特別に設計されているが、エンティティリンクタスクを評価するためのより困難なデータセットとしても使用できる。
本稿では,Wiki-TabNERデータセットとラベリングプロセスの区別機能について述べる。
さらに,NERタスク内における新しい大規模言語モデルの評価を行うためのプロンプトフレームワークを提案する。
最後に,モデルが直面する課題を把握し,提案した–データセットの限界を理解するために定性分析を行う。
関連論文リスト
- TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす
本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。
我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文 参考訳(メタデータ) (2025-06-23T09:02:04Z) - Bridging Queries and Tables through Entities in Table Retrieval [70.13748256886288]
エンティティは、テキスト検索の文脈でよく研究されているが、テーブル検索におけるその応用についての研究は、顕著に欠如している。
本稿では、実体表現に基づく相互作用パラダイムを設計し、エンティティ強化トレーニングフレームワークを提案する。
提案するフレームワークはプラグアンドプレイでフレキシブルで,既存のテーブルレトリバーのトレーニングプロセスに統合しやすくする。
論文 参考訳(メタデータ) (2025-04-09T03:16:33Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。
TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。
既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。
現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文 参考訳(メタデータ) (2024-06-05T20:32:56Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。
本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文 参考訳(メタデータ) (2024-03-29T14:41:21Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Observatory: Characterizing Embeddings of Relational Tables [15.808819332614712]
研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。
下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。
本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
論文 参考訳(メタデータ) (2023-10-05T00:58:45Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - CTE: A Dataset for Contextualized Table Extraction [1.1859913430860336]
データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。
PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。
生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
論文 参考訳(メタデータ) (2023-02-02T22:38:23Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z) - Eliminating Catastrophic Interference with Biased Competition [0.0]
本稿では,複雑なデータセットのマルチタスク特性を活用するモデルを提案する。
このモデルは,新たに作成したデータセット上でのタスク間の破滅的な干渉を排除し,視覚質問応答空間における競合的な結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-07-03T16:15:15Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z) - Leveraging Schema Labels to Enhance Dataset Search [20.63182827636973]
本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。
生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。
実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
論文 参考訳(メタデータ) (2020-01-27T22:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。