論文の概要: INFOTABS: Inference on Tables as Semi-structured Data
- arxiv url: http://arxiv.org/abs/2005.06117v1
- Date: Wed, 13 May 2020 02:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 10:06:46.134100
- Title: INFOTABS: Inference on Tables as Semi-structured Data
- Title(参考訳): INFOTABS: 半構造化データとしてのテーブルの推論
- Authors: Vivek Gupta, Maitrey Mehta, Pegah Nokhiz and Vivek Srikumar
- Abstract要約: 我々は,ウィキペディアのインフォボックスから抽出されたテーブルである前提に基づいて,人間によるテキスト仮説からなるINFOTABSという新しいデータセットを導入する。
解析の結果,半構造的,多領域的,異種的の性質は複雑で多面的推論を許容していることがわかった。
実験の結果、人間アノテータはテーブル-仮説のペア間の関係について合意する一方で、いくつかの標準的なモデリング戦略はそのタスクにおいて失敗していることがわかった。
- 参考スコア(独自算出の注目度): 39.84930221015755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we observe that semi-structured tabulated text is ubiquitous;
understanding them requires not only comprehending the meaning of text
fragments, but also implicit relationships between them. We argue that such
data can prove as a testing ground for understanding how we reason about
information. To study this, we introduce a new dataset called INFOTABS,
comprising of human-written textual hypotheses based on premises that are
tables extracted from Wikipedia info-boxes. Our analysis shows that the
semi-structured, multi-domain and heterogeneous nature of the premises admits
complex, multi-faceted reasoning. Experiments reveal that, while human
annotators agree on the relationships between a table-hypothesis pair, several
standard modeling strategies are unsuccessful at the task, suggesting that
reasoning about tables can pose a difficult modeling challenge.
- Abstract(参考訳): 本稿では,半構造化の集計テキストがユビキタスであることを示す。その理解には,テキスト断片の意味を理解するだけでなく,それらの間の暗黙の関係も必要である。
このようなデータは、情報に対する理由を理解するためのテスト場として証明できる、と私たちは主張する。
そこで本研究では,wikipediaのインフォボックスから抽出された表である前提に基づく人文によるテキスト仮説からなる,infotabsという新しいデータセットを提案する。
解析の結果, 半構造化, マルチドメイン, 異質性は複雑で多面的な推論を許容することがわかった。
実験の結果、人間アノテータはテーブル-仮説のペア間の関係について合意するが、いくつかの標準的なモデリング戦略はタスクで失敗し、テーブルについての推論が難しいモデリング課題を引き起こす可能性が示唆された。
関連論文リスト
- Scaling Laws with Hidden Structure [2.474908349649168]
近年の進歩は、テキストと画像データがそのような隠された構造を含んでいることを示唆しており、次元の呪いを和らげるのに役立つ。
本稿では,ニューラルネットワークが実際にそのような隠された因子構造を活用できるかどうかを検証するための制御された実験枠組みを提案する。
これらの潜在パターンを利用して離散分布をより効率的に学習し、モデルサイズ、隠れ分解、精度をリンクするスケーリング法則を導出することを発見した。
論文 参考訳(メタデータ) (2024-11-02T22:32:53Z) - Knowledge-Aware Reasoning over Multimodal Semi-structured Tables [85.24395216111462]
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを紹介する。
我々の実験は、複数のテキストと画像の入力を効果的に統合し解釈する上で、現在のAIモデルに対する重大な課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-08-25T15:17:43Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Large Language Models are Versatile Decomposers: Decompose Evidence and
Questions for Table-based Reasoning [45.013230888670435]
大規模言語モデル(LLM)を効率的なテーブルベースの推論のためのデコンパイラとして活用する。
巨大な証拠(巨大な表)をサブエビデンス(小さな表)に分解し、無駄な情報の干渉を軽減する。
我々は,思考連鎖のジレンマを軽減するために,「パーシング・エグゼクティオン・フィリング」戦略を提案する。
論文 参考訳(メタデータ) (2023-01-31T17:51:45Z) - Realistic Data Augmentation Framework for Enhancing Tabular Reasoning [15.339526664699845]
半構造化テーブル推論のような自然言語推論タスクのためのトレーニングデータを構築するための既存のアプローチは、クラウドソーシングまたは完全に自動化された方法である。
本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。
論文 参考訳(メタデータ) (2022-10-23T17:32:19Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - An Interpretability Illusion for BERT [61.2687465308121]
BERTモデル解析時に生じる「解釈性イリュージョン」について述べる。
このイリュージョンの源をBERTの埋め込み空間の幾何学的性質にトレースする。
モデル学習概念の分類法を提供し,解釈可能性研究の方法論的意義について論じる。
論文 参考訳(メタデータ) (2021-04-14T22:04:48Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。