論文の概要: NLCTables: A Dataset for Marrying Natural Language Conditions with Table Discovery
- arxiv url: http://arxiv.org/abs/2504.15849v1
- Date: Tue, 22 Apr 2025 12:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:26:10.905392
- Title: NLCTables: A Dataset for Marrying Natural Language Conditions with Table Discovery
- Title(参考訳): NLCTables: テーブルディスカバリによる自然言語条件の結婚のためのデータセット
- Authors: Lingxi Cui, Huan Li, Ke Chen, Lidan Shou, Gang Chen,
- Abstract要約: 我々はNL条件付きテーブル探索(nlcTD)という新しいタスクを提案する。
nlcTablesは、NLのみ、union、join、fuzzy条件、22,080の候補テーブル、21,200の関連アノテーションにまたがる627の多様なクエリからなるベンチマークデータセットである。
nlcTables上での6つの最先端テーブル探索手法の評価により,性能差が顕著であることがわかった。
- 参考スコア(独自算出の注目度): 15.992985583785316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing abundance of repositories containing tabular data, discovering relevant tables for in-depth analysis remains a challenging task. Existing table discovery methods primarily retrieve desired tables based on a query table or several vague keywords, leaving users to manually filter large result sets. To address this limitation, we propose a new task: NL-conditional table discovery (nlcTD), where users combine a query table with natural language (NL) requirements to refine search results. To advance research in this area, we present nlcTables, a comprehensive benchmark dataset comprising 627 diverse queries spanning NL-only, union, join, and fuzzy conditions, 22,080 candidate tables, and 21,200 relevance annotations. Our evaluation of six state-of-the-art table discovery methods on nlcTables reveals substantial performance gaps, highlighting the need for advanced techniques to tackle this challenging nlcTD scenario. The dataset, construction framework, and baseline implementations are publicly available at https://github.com/SuDIS-ZJU/nlcTables to foster future research.
- Abstract(参考訳): 表データを含むレポジトリの増大に伴い、詳細な分析を行うための関連テーブルの発見は依然として難しい課題である。
既存のテーブル発見手法は、主にクエリテーブルやいくつかの曖昧なキーワードに基づいて所望のテーブルを検索し、ユーザーは手動で大きな結果集合をフィルタリングする。
この制限に対処するため,NL- Conditional table discovery (nlcTD) という新しいタスクを提案する。
この領域の研究を進めるために、NLのみ、union、join、fuzzy条件、22,080の候補テーブル、および21,200の関連アノテーションを含む627の多様なクエリからなる包括的なベンチマークデータセットであるnlcTablesを提案する。
nlcTables上での6つの最先端テーブル探索手法の評価は,この難題に対処するための高度な技術の必要性を浮き彫りにしている。
データセット、構築フレームワーク、ベースライン実装は、将来の研究を促進するためにhttps://github.com/SuDIS-ZJU/nlcTablesで公開されている。
関連論文リスト
- GTR: Graph-Table-RAG for Cross-Table Question Answering [53.11230952572134]
テーブルコーパスをヘテロジニアスグラフに再構成するグラフテーブル-テーブル-RAG フレームワーク GTR を提案する。
GTRは、高いデプロイメント効率を維持しながら、より優れたクロステーブル質問応答性能を示し、実際の実用性を示している。
論文 参考訳(メタデータ) (2025-04-02T04:24:41Z) - Tailoring Table Retrieval from a Field-aware Hybrid Matching Perspective [70.13748256886288]
表検索はテキスト検索に比べて少ない。
異なるテーブルフィールドは、異なるマッチングの好みを持つ。
テーブル調整ハイブリドマッチングrEtriever(THYME)について紹介する。
論文 参考訳(メタデータ) (2025-03-04T03:57:10Z) - Benchmarking Table Comprehension In The Wild [9.224698222634789]
TableQuestは、LLM(Large Language Models)の全体的なテーブル理解能力を評価するために設計された新しいベンチマークである。
我々は7つの最先端モデルを用いて実験を行い、事実の特定に妥当な精度にもかかわらず、より洗練された推論や多段階の計算を行うために必要な場合には、しばしばフェールすることを示した。
論文 参考訳(メタデータ) (2024-12-13T05:52:37Z) - HiddenTables & PyQTax: A Cooperative Game and Dataset For TableQA to Ensure Scale and Data Privacy Across a Myriad of Taxonomies [9.09415727445941]
本稿では,この課題に対する潜在的な解決法として,HiddenTablesと呼ばれる協調ゲームを提案する。
エージェントがテーブルQAタスクを解く能力を評価するコード生成「r」と「Oracleウィンドウ」の間で「HiddenTables」が再生される。
複雑なクエリを一般化および実行できないLCMの集合性を実証する多種多様なテーブルの集合について明らかな実験を行う。
論文 参考訳(メタデータ) (2024-06-16T04:53:29Z) - QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs [63.98556480088152]
表要約は、情報を簡潔で分かりやすいテキスト要約に凝縮するための重要な課題である。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
提案手法は,テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデルからなり,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
論文 参考訳(メタデータ) (2024-05-08T15:05:55Z) - Is Table Retrieval a Solved Problem? Exploring Join-Aware Multi-Table Retrieval [52.592071689901196]
本稿では,テーブル検索において,任意のクエリやデータベースに対して有用な結合関係を明らかにする手法を提案する。
提案手法は,F1スコアの最大9.3%,エンドツーエンドQAの最大5.4%の精度で,テーブル検索の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-04-15T15:55:01Z) - TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning [55.33939289989238]
テーブルベースタスクにおいて,大規模言語モデル(LLM)を効果的に活用するための汎用プリプロセッサスイートとして,TAP4LLMを提案する。
1)大きなテーブルをクエリセマンティクスに基づいて管理可能なサブテーブルに分解するテーブルサンプリング、(2)外部ソースやモデルから追加の知識でテーブルを拡張するテーブル拡張、(3)テーブルパッキングとシリアライゼーションによりテーブルをLLMの理解に適したさまざまなフォーマットに変換する。
論文 参考訳(メタデータ) (2023-12-14T15:37:04Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - HiTab: A Hierarchical Table Dataset for Question Answering and Natural
Language Generation [35.73434495391091]
階層テーブルは、計算と意味論の暗黙の関係と同様に、階層的な索引付けによって既存の手法に挑戦する。
この研究は、階層テーブル上で質問応答(QA)と自然言語生成(NLG)を研究する研究コミュニティのための、自由でオープンなデータセットであるHiTabを提示する。
論文 参考訳(メタデータ) (2021-08-15T10:14:21Z) - Summarizing and Exploring Tabular Data in Conversational Search [36.14882974814593]
会話指向のオープンドメインテーブル要約データセットを新たに構築する。
注釈付きテーブルサマリーが含まれており、質問に答えるだけでなく、テーブル内の他の情報を探索するのに役立つ。
本データセットを用いて,SOTAベースラインとして自動テーブル要約システムの開発を行う。
論文 参考訳(メタデータ) (2020-05-23T08:29:51Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。