論文の概要: Survey on Semantic Interpretation of Tabular Data: Challenges and Directions
- arxiv url: http://arxiv.org/abs/2411.11891v1
- Date: Thu, 07 Nov 2024 14:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-24 05:05:01.989419
- Title: Survey on Semantic Interpretation of Tabular Data: Challenges and Directions
- Title(参考訳): 語彙データの意味的解釈に関する調査--課題と方向性
- Authors: Marco Cremaschi, Blerina Spahiu, Matteo Palmonari, Ernesto Jimenez-Ruiz,
- Abstract要約: 本調査は,セマンティックテーブル解釈の全体像を概観することを目的としている。
まず31の属性の分類を使ってアプローチを分類し、比較と評価を可能にします。
また、利用可能なツールを調べ、12の基準に基づいて評価する。
- 参考スコア(独自算出の注目度): 2.324913904215885
- License:
- Abstract: Tabular data plays a pivotal role in various fields, making it a popular format for data manipulation and exchange, particularly on the web. The interpretation, extraction, and processing of tabular information are invaluable for knowledge-intensive applications. Notably, significant efforts have been invested in annotating tabular data with ontologies and entities from background knowledge graphs, a process known as Semantic Table Interpretation (STI). STI automation aids in building knowledge graphs, enriching data, and enhancing web-based question answering. This survey aims to provide a comprehensive overview of the STI landscape. It starts by categorizing approaches using a taxonomy of 31 attributes, allowing for comparisons and evaluations. It also examines available tools, assessing them based on 12 criteria. Furthermore, the survey offers an in-depth analysis of the Gold Standards used for evaluating STI approaches. Finally, it provides practical guidance to help end-users choose the most suitable approach for their specific tasks while also discussing unresolved issues and suggesting potential future research directions.
- Abstract(参考訳): タブラルデータは様々な分野で重要な役割を担い、特にウェブにおいて、データ操作と交換の一般的なフォーマットとなっている。
表情報の解釈、抽出、処理は知識集約的な応用には有用である。
特に、背景知識グラフ(Semantic Table Interpretation (STI)と呼ばれるプロセス)から、表データにオントロジーやエンティティを付加したアノテートに多大な努力が注がれている。
STI自動化は知識グラフの構築、データ強化、Webベースの質問応答の強化を支援する。
本調査は,STIの展望を包括的に概観することを目的としている。
まず31の属性の分類を使ってアプローチを分類し、比較と評価を可能にします。
また、利用可能なツールを調べ、12の基準に基づいて評価する。
さらに、調査では、STIのアプローチを評価するために使用されるゴールドスタンダードについて詳細な分析を行っている。
最後に、エンドユーザが特定のタスクに最も適したアプローチを選択し、未解決の問題について議論し、将来的な研究方向性を提案するための実践的なガイダンスを提供する。
関連論文リスト
- Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation [37.43210238341124]
この調査では、データ空間の洗練に欠かせない技術として、特徴選択と特徴生成を強調し、データ中心型AIの重要な側面について検討する。
本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
論文 参考訳(メタデータ) (2025-01-17T21:05:09Z) - DSAI: Unbiased and Interpretable Latent Feature Extraction for Data-Centric AI [24.349800949355465]
大規模言語モデル(LLM)は、大きなデータセットの潜在特性を客観的に識別するのにしばしば苦労する。
本研究では,非バイアスで解釈可能な特徴抽出を可能にするフレームワークであるData Scientist AI(DSAI)を提案する。
論文 参考訳(メタデータ) (2024-12-09T08:47:05Z) - Unleashing the Power of Data Tsunami: A Comprehensive Survey on Data Assessment and Selection for Instruction Tuning of Language Models [33.488331159912136]
インストラクションチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
自然言語処理(NLP)とディープラーニングの分野において,データアセスメントと選択手法が提案されている。
本稿では,データアセスメントと選択に関する既存の文献を総合的にレビューし,特にLLMの命令チューニングについて述べる。
論文 参考訳(メタデータ) (2024-08-04T16:50:07Z) - H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。
実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-06-29T21:24:19Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - A Survey of Embedding Space Alignment Methods for Language and Knowledge
Graphs [77.34726150561087]
単語,文,知識グラフの埋め込みアルゴリズムに関する現在の研究状況について調査する。
本稿では、関連するアライメント手法の分類と、この研究分野で使用されるベンチマークデータセットについて論じる。
論文 参考訳(メタデータ) (2020-10-26T16:08:13Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。