論文の概要: BioTABQA: Instruction Learning for Biomedical Table Question Answering
- arxiv url: http://arxiv.org/abs/2207.02419v1
- Date: Wed, 6 Jul 2022 03:40:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 01:29:28.874896
- Title: BioTABQA: Instruction Learning for Biomedical Table Question Answering
- Title(参考訳): BioTABQA: バイオメディカルテーブル質問応答のための指導学習
- Authors: Man Luo, Sharad Saxena, Swaroop Mishra, Mihir Parmar, Chitta Baral
- Abstract要約: TQA(Table Question Answering)は重要な課題であるが、未調査の課題である。
TQAデータセットは、情報の提示に頻繁に使用される生物医学領域には存在しない。
BioTABQAは、モデルにテーブルからの質問に答える方法を教えるだけでなく、モデルが目に見えない質問にどのように一般化するかを評価するのにも使える。
- 参考スコア(独自算出の注目度): 19.66452178704578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table Question Answering (TQA) is an important but under-explored task. Most
of the existing QA datasets are in unstructured text format and only few of
them use tables as the context. To the best of our knowledge, none of TQA
datasets exist in the biomedical domain where tables are frequently used to
present information. In this paper, we first curate a table question answering
dataset, BioTABQA, using 22 templates and the context from a biomedical
textbook on differential diagnosis. BioTABQA can not only be used to teach a
model how to answer questions from tables but also evaluate how a model
generalizes to unseen questions, an important scenario for biomedical
applications. To achieve the generalization evaluation, we divide the templates
into 17 training and 5 cross-task evaluations. Then, we develop two baselines
using single and multi-tasks learning on BioTABQA. Furthermore, we explore
instructional learning, a recent technique showing impressive generalizing
performance. Experimental results show that our instruction-tuned model
outperforms single and multi-task baselines on an average by ~23% and ~6%
across various evaluation settings, and more importantly, instruction-tuned
model outperforms baselines by ~5% on cross-tasks.
- Abstract(参考訳): TQA(Table Question Answering)は、重要だが未調査の課題である。
既存のQAデータセットのほとんどは構造化されていないテキストフォーマットで、テーブルをコンテキストとして使用するものはほとんどありません。
我々の知る限りでは、TQAデータセットはいずれも、情報の提示に頻繁に使用される生物医学領域には存在しない。
本稿ではまず,22のテンプレートを用いたテーブル質問応答データセットBioTABQAを,生物医学教科書の差分診断のコンテキストからキュレートする。
BioTABQAは、モデルにテーブルからの質問に答える方法を教えるだけでなく、モデルが目に見えない質問にどのように一般化するかを評価することができる。
一般化評価を実現するため,テンプレートを17のトレーニングと5つのクロスタスク評価に分割する。
次に,BioTABQAを用いたシングルタスク学習とマルチタスク学習の2つのベースラインを構築した。
さらに,性能を一般化する近年の手法である指導学習についても考察する。
実験の結果,様々な評価条件において,単タスクおよびマルチタスクのベースラインを平均で23%,6%,さらにクロスタスクでは命令チューニングモデルがベースラインを約5%上回った。
関連論文リスト
- ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - KET-QA: A Dataset for Knowledge Enhanced Table Question Answering [63.56707527868466]
本研究では,TableQAの外部知識源として知識ベース(KB)を用いることを提案する。
すべての質問は、答えるテーブルとサブグラフの両方からの情報を統合する必要がある。
我々は,膨大な知識サブグラフから関連する情報を抽出するために,レトリバー・レゾナー構造パイプラインモデルを設計する。
論文 参考訳(メタデータ) (2024-05-13T18:26:32Z) - BioREx: Improving Biomedical Relation Extraction by Leveraging
Heterogeneous Datasets [7.7587371896752595]
生物医学的関係抽出(RE)は、生物医学的自然言語処理(NLP)研究における中心的な課題である。
本稿では、個々のデータセットのデータの均一性を体系的に解決し、それらを大きなデータセットに組み合わせるための新しいフレームワークを提案する。
評価の結果,BioRExは個々のデータセットでトレーニングしたベンチマークシステムよりも大幅に高い性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-06-19T22:48:18Z) - MultiTabQA: Generating Tabular Answers for Multi-Table Question
Answering [61.48881995121938]
実世界のクエリは本質的に複雑で、リレーショナルデータベースやWebページ内の複数のテーブルにまたがることが多い。
我々のモデルであるMultiTabQAは、複数のテーブル上の質問に答えるだけでなく、表形式の回答を生成するために一般化する。
論文 参考訳(メタデータ) (2023-05-22T08:25:15Z) - STUNT: Few-shot Tabular Learning with Self-generated Tasks from
Unlabeled Tables [64.0903766169603]
我々は,Unlabeled Tables (STUNT) からの自己生成タスクを作成した,数発のセミ教師付き学習のためのフレームワークを提案する。
私たちのキーとなるアイデアは、ランダムに選択された列をターゲットラベルとして扱うことで、多様なショットタスクを自己生成することです。
次に、メタラーニング手法を用いて、構築されたタスクで一般化可能な知識を学習する。
論文 参考訳(メタデータ) (2023-03-02T02:37:54Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - In-BoXBART: Get Instructions into Biomedical Multi-Task Learning [18.3293060030174]
シングルタスクモデルは特定のタスクの解決において重要な役割を担っているが、現実のアプリケーションには制限がある。
バイオメディカルNLPのための32の命令タスクの集合であるBoXを紹介する。
タスク固有のモジュールを使わずにBoXの全タスクを共同で学習できるIn-BoXBARTという統一モデルを提案する。
論文 参考訳(メタデータ) (2022-04-15T18:06:22Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Sequence Tagging for Biomedical Extractive Question Answering [12.464143741310137]
一般領域とバイオメディカル領域における質問分布の差異について検討する。
生命医学的な質問は、ファクトイド型回答(シングル回答)よりもリスト型回答(複数回答)を必要とすることが多い。
我々のアプローチは、トレーニングデータから質問に対する回答の数を決定することを学ぶことができる。
論文 参考訳(メタデータ) (2021-04-15T15:42:34Z) - Clinical Reading Comprehension: A Thorough Analysis of the emrQA Dataset [29.866478682797513]
臨床ノートに基づく質問応答(QA)のための最初の大規模データセットである emrQA の詳細な分析を行う。
i) emrQA の回答は不完全であり,(ii) emrQA の質問はドメイン知識を使わずに答えられることが多い。
論文 参考訳(メタデータ) (2020-05-01T19:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。