論文の概要: PQA: Zero-shot Protein Question Answering for Free-form Scientific
Enquiry with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13653v1
- Date: Wed, 21 Feb 2024 09:38:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:08:47.750091
- Title: PQA: Zero-shot Protein Question Answering for Free-form Scientific
Enquiry with Large Language Models
- Title(参考訳): PQA:大規模言語モデルを用いたフリーフォーム科学調査のためのゼロショットタンパク質質問回答
- Authors: Eli M Carrami and Sahand Sharifzadeh
- Abstract要約: 本稿では, ゼロショットタンパク質質問回答(PQA)の新たな課題について紹介する。
未確認のタンパク質配列と自然言語の問題を考えると、その課題は科学的に正確な答えを提供することである。
我々はPQAモデルトレーニングのための最初の特別なデータセットを寄贈し、257Kのタンパク質配列に1.97Mの科学的質問応答ペアを付加した。
- 参考スコア(独自算出の注目度): 5.062600294117055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the novel task of zero-shot Protein Question Answering (PQA) for
free-form scientific enquiry. Given a previously unseen protein sequence and a
natural language question, the task is to deliver a scientifically accurate
answer. This task not only supports future biological research, but could also
provide a test bed for assessing the scientific precision of large language
models (LLMs). We contribute the first specialized dataset for PQA model
training, containing 257K protein sequences annotated with 1.97M scientific
question-answer pairs. Additionally, we propose and study several novel
biologically relevant benchmarks for scientific PQA. Employing two robust
multi-modal architectures, we establish an initial state-of-the-art performance
for PQA and reveal key performance factors through ablation studies. Our
comprehensive PQA framework, named Pika, including dataset, code, model
checkpoints, and a user-friendly demo, is openly accessible on
github.com/EMCarrami/Pika, promoting wider research and application in the
field.
- Abstract(参考訳): 本稿では, ゼロショットタンパク質質問回答(PQA)の新たな課題について紹介する。
未確認のタンパク質配列と自然言語の問題を考えると、その課題は科学的に正確な答えを提供することである。
このタスクは、将来の生物学的研究をサポートするだけでなく、大規模言語モデル(LLM)の科学的精度を評価するためのテストベッドを提供することもできる。
我々はPQAモデルトレーニングのための最初の特別なデータセットを寄贈し、257Kのタンパク質配列に1.97Mの科学的質問応答ペアを付加した。
さらに, 科学的PQAのための生物学的関連ベンチマークをいくつか提案し, 研究を行った。
2つの堅牢なマルチモーダルアーキテクチャを用いて、PQAの最先端性能を確立し、アブレーション研究を通じて重要な性能要因を明らかにする。
Pikaという名前の包括的なPQAフレームワークは、データセット、コード、モデルチェックポイント、ユーザフレンドリなデモなどを含み、github.com/EMCarrami/Pikaでオープンにアクセスでき、この分野の幅広い研究と応用を促進する。
関連論文リスト
- Around the GLOBE: Numerical Aggregation Question-Answering on
Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。
提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。
本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2023-07-30T12:09:00Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - ProQA: Structural Prompt-based Pre-training for Unified Question
Answering [84.59636806421204]
ProQAは統一されたQAパラダイムであり、単一のモデルによって様々なタスクを解決する。
全てのQAタスクの知識一般化を同時にモデル化し、特定のQAタスクの知識カスタマイズを維持します。
ProQAは、フルデータの微調整、数ショットの学習、ゼロショットテストシナリオの両方のパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2022-05-09T04:59:26Z) - Science Checker: Extractive-Boolean Question Answering For Scientific
Fact Checking [0.0]
本研究では,研究論文における事実と証拠からの合同推論に基づいて,科学的疑問を検証するためのマルチタスクアプローチを提案する。
提案した軽量かつ高速なアーキテクチャにより、平均エラー率は4%、F1スコアは95.6%に達した。
論文 参考訳(メタデータ) (2022-04-26T12:35:23Z) - CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training [21.07506671340319]
本稿では,Common Crawlプロジェクトに基づく質問応答データセットを提案する。
我々は、約1億3000万の多言語問合せ対を抽出し、約6000万の英語データポイントを抽出した。
これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-14T21:23:01Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - CliniQG4QA: Generating Diverse Questions for Domain Adaptation of
Clinical Question Answering [27.45623324582005]
臨床質問応答(英: Clinical Question answering, QA)は、臨床テキストに基づく医療専門家の質問に自動的に答えることを目的としている。
CliniQG4QAを提案する。これは質問生成(QG)を利用して、新しい臨床状況に基づいてQAペアを合成する。
QAモデルのトレーニングに不可欠な多様な質問を生成するために,Seq2seqベースの質問句予測(QPP)モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-30T02:06:10Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。