Fugu-MT 論文翻訳(概要): Wiki-TabNER:Advancing Table Interpretation Through Named Entity Recognition

論文の概要: Wiki-TabNER:Advancing Table Interpretation Through Named Entity Recognition

arxiv url: http://arxiv.org/abs/2403.04577v1
Date: Thu, 7 Mar 2024 15:22:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:32:16.240756
Title: Wiki-TabNER:Advancing Table Interpretation Through Named Entity Recognition
Title（参考訳）: Wiki-TabNER:名前付きエンティティ認識によるテーブル解釈の改善
Authors: Aneta Koleva, Martin Ringsquandl, Ahmed Hatem, Thomas Runkler, Volker Tresp
Abstract要約: TIタスクの評価に広く用いられているベンチマークデータセットを分析した。この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
参考スコア（独自算出の注目度）: 19.423556742293762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Web tables contain a large amount of valuable knowledge and have inspired tabular language models aimed at tackling table interpretation (TI) tasks. In this paper, we analyse a widely used benchmark dataset for evaluation of TI tasks, particularly focusing on the entity linking task. Our analysis reveals that this dataset is overly simplified, potentially reducing its effectiveness for thorough evaluation and failing to accurately represent tables as they appear in the real-world. To overcome this drawback, we construct and annotate a new more challenging dataset. In addition to introducing the new dataset, we also introduce a novel problem aimed at addressing the entity linking task: named entity recognition within cells. Finally, we propose a prompting framework for evaluating the newly developed large language models (LLMs) on this novel TI task. We conduct experiments on prompting LLMs under various settings, where we use both random and similarity-based selection to choose the examples presented to the models. Our ablation study helps us gain insights into the impact of the few-shot examples. Additionally, we perform qualitative analysis to gain insights into the challenges encountered by the models and to understand the limitations of the proposed dataset.
Abstract（参考訳）: Webテーブルには大量の貴重な知識が含まれており、テーブル解釈(TI)タスクに取り組むことを目的とした表言語モデルにインスピレーションを与えています。本稿では,TIタスクの評価に広く用いられているベンチマークデータセットの解析を行い,特にエンティティリンクタスクに着目した。分析の結果、このデータセットは単純化され、徹底的な評価の有効性が低下し、現実世界に現れるテーブルを正確に表現できない可能性が示唆された。この欠点を克服するために、私たちは新しい挑戦的なデータセットを構築して注釈付けします。また,新たなデータセットの導入に加えて,セル内の名前付きエンティティ認識という,エンティティリンクタスクに対処する新たな問題も導入する。最後に,新たに開発された大規模言語モデル(LLM)を新しいTIタスクで評価するためのプロンプトフレームワークを提案する。様々な設定下でllmを促す実験を行い,ランダム選択と類似性に基づく選択の両方を用いて,モデルに提示された例を選択する。私たちのアブレーション研究は、わずかな例の影響についての洞察を得るのに役立ちます。さらに,モデルが直面する課題を把握し,提案するデータセットの限界を理解するために,定性分析を実施している。

関連論文リスト

Improving Table Understanding with LLMs and Entity-Oriented Search [24.3302301035859]
大規模言語モデル(LLM)を用いたテーブル理解向上のためのエンティティ指向検索手法を提案する。このアプローチは、質問とテーブルデータ間の意味的類似性、およびテーブルセル間の暗黙的な関係を効果的に活用する。テーブルエンティティにフォーカスし、テーブルセルがセマンティックにタイトに束縛されていることを保証する。
論文参考訳（メタデータ） (2025-08-23T14:02:45Z)
TReB: A Comprehensive Benchmark for Evaluating Table Reasoning Capabilities of Large Language Models [30.26407735827857]
表構造データによる推論は、大規模言語モデル(LLM)に重大な課題をもたらす本稿では,表理解能力と表推論能力の両方を測定する総合的な表推論進化ベンチマークTReBを提案する。我々は3つの異なる推論モード(TCoT, PoT, ICoT)でテーブル推論能力を頑健に測定する評価フレームワークを構築した。
論文参考訳（メタデータ） (2025-06-23T09:02:04Z)
Bridging Queries and Tables through Entities in Table Retrieval [70.13748256886288]
エンティティは、テキスト検索の文脈でよく研究されているが、テーブル検索におけるその応用についての研究は、顕著に欠如している。本稿では、実体表現に基づく相互作用パラダイムを設計し、エンティティ強化トレーニングフレームワークを提案する。提案するフレームワークはプラグアンドプレイでフレキシブルで,既存のテーブルレトリバーのトレーニングプロセスに統合しやすくする。
論文参考訳（メタデータ） (2025-04-09T03:16:33Z)
TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。 TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-10-07T04:15:02Z)
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。この目的のために設計された新しいデータセットであるMMTabQAを紹介する。我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-08-25T15:17:43Z)
TACT: Advancing Complex Aggregative Reasoning with Information Extraction Tools [51.576974932743596]
大規模言語モデル(LLM)は、テキスト間の情報の集約を必要とするクエリではよく機能しないことが多い。 TACTには、1つ以上のテキストに散らばる縫合情報を要求する難しい命令が含まれている。既存のテキストと関連するテーブルのデータセットを活用することで、このデータセットを構築します。現代のLLMはいずれも,このデータセットでは性能が悪く,精度が38%以下であることが実証された。
論文参考訳（メタデータ） (2024-06-05T20:32:56Z)
QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文参考訳（メタデータ） (2024-05-08T15:05:55Z)
Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science [17.910306140400046]
この研究は、これらの予測タスクにLarge Language Models (LLM)を適用する試みである。本研究の目的は,Llama-2 の大規模学習を行う上で,注釈付きテーブルの包括的コーパスをコンパイルすることで,このギャップを緩和することにある。
論文参考訳（メタデータ） (2024-03-29T14:41:21Z)
Text2Analysis: A Benchmark of Table Question Answering with Advanced Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。 3つの異なる指標を用いて5つの最先端モデルを評価する。
論文参考訳（メタデータ） (2023-12-21T08:50:41Z)
Observatory: Characterizing Embeddings of Relational Tables [15.808819332614712]
研究者や実践者は、多くの新しいアプリケーションコンテキストにおいて、言語とテーブルの埋め込みモデルを活用することに熱心です。下流利用における非効率性と失敗を最小限に抑えるために、これらのモデルの包括的な理解を得る必要がある。本研究では,関係表の埋め込み表現を体系的に解析する公式なフレームワークであるObservatoryを提案する。
論文参考訳（メタデータ） (2023-10-05T00:58:45Z)
Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文参考訳（メタデータ） (2023-05-23T17:58:10Z)
QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文参考訳（メタデータ） (2023-05-23T17:43:51Z)
CTE: A Dataset for Contextualized Table Extraction [1.1859913430860336]
データセットは、35k以上のテーブルを含む、75kの完全な注釈付き科学論文で構成されている。 PubMed Centralから収集されたデータは、PubTables-1MとPubLayNetデータセットのアノテーションによって提供される情報をマージする。生成されたアノテーションは、ドキュメントレイアウト分析、テーブル検出、構造認識、機能解析など、さまざまなタスクのためのエンドツーエンドパイプラインの開発に使用することができる。
論文参考訳（メタデータ） (2023-02-02T22:38:23Z)
HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文参考訳（メタデータ） (2021-08-15T10:14:21Z)
A Graph Representation of Semi-structured Data for Web Question Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文参考訳（メタデータ） (2020-10-14T04:01:54Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)
Eliminating Catastrophic Interference with Biased Competition [0.0]
本稿では,複雑なデータセットのマルチタスク特性を活用するモデルを提案する。このモデルは,新たに作成したデータセット上でのタスク間の破滅的な干渉を排除し,視覚質問応答空間における競合的な結果をもたらすことを実証する。
論文参考訳（メタデータ） (2020-07-03T16:15:15Z)
A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。 DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文参考訳（メタデータ） (2020-04-20T13:26:45Z)
Leveraging Schema Labels to Enhance Dataset Search [20.63182827636973]
本稿では,データセットテーブルの内容に基づいて可能なスキーマラベルを生成する新しいスキーマラベル生成モデルを提案する。生成したスキーマラベルを混合ランキングモデルに組み込み、クエリとデータセットメタデータの関連性を検討する。実験により,本手法はデータセット検索タスクの精度とNDCGスコアを効果的に向上できることが示された。
論文参考訳（メタデータ） (2020-01-27T22:41:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。