論文の概要: PQA: Zero-shot Protein Question Answering for Free-form Scientific Enquiry with Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13653v2
- Date: Mon, 18 Nov 2024 19:32:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:24.115485
- Title: PQA: Zero-shot Protein Question Answering for Free-form Scientific Enquiry with Large Language Models
- Title(参考訳): PQA:大規模言語モデルを用いたフリーフォーム科学調査のためのゼロショットタンパク質質問回答
- Authors: Eli M Carrami, Sahand Sharifzadeh,
- Abstract要約: Protein Question Answering (PQA) は、タスク固有のトレーニングなしで、幅広いタンパク質関連クエリに答えるように設計されたタスクである。
Pikaは、PQA用に調整された硬化した脱バイアスデータセットと、生化学的に関連するベンチマーク戦略で構成されている。
- 参考スコア(独自算出の注目度): 4.5044944051958264
- License:
- Abstract: Understanding protein structure and function is crucial in biology. However, current computational methods are often task-specific and resource-intensive. To address this, we propose zero-shot Protein Question Answering (PQA), a task designed to answer a wide range of protein-related queries without task-specific training. The success of PQA hinges on high-quality datasets and robust evaluation strategies, both of which are lacking in current research. Existing datasets suffer from biases, noise, and lack of evolutionary context, while current evaluation methods fail to accurately assess model performance. We introduce the Pika framework to overcome these limitations. Pika comprises a curated, debiased dataset tailored for PQA and a biochemically relevant benchmarking strategy. We also propose multimodal large language models as a strong baseline for PQA, leveraging their natural language processing and knowledge. This approach promises a more flexible and efficient way to explore protein properties, advancing protein research. Our comprehensive PQA framework, Pika, including dataset, code, and model checkpoints, is openly accessible on github.com/EMCarrami/Pika, promoting wider research in the field.
- Abstract(参考訳): タンパク質の構造と機能を理解することは生物学において重要である。
しかし、現在の計算手法はしばしばタスク固有であり、リソース集約である。
そこで本研究では,タスク固有のトレーニングを伴わずに,幅広いタンパク質関連クエリに応答するタスクであるゼロショットタンパク質質問応答(PQA)を提案する。
PQAの成功は、高品質なデータセットとロバストな評価戦略に依存しており、どちらも現在の研究に欠けている。
既存のデータセットはバイアス、ノイズ、進化的コンテキストの欠如に悩まされており、現在の評価手法ではモデルの性能を正確に評価できない。
これらの制限を克服するために、Pikaフレームワークを導入します。
Pikaは、PQA用に調整された硬化した脱バイアスデータセットと、生化学的に関連するベンチマーク戦略で構成されている。
また、PQAの強力なベースラインとして多モーダルな大規模言語モデルを提案し、その自然言語処理と知識を活用している。
このアプローチは、タンパク質の性質を探求し、タンパク質の研究を進める、より柔軟で効率的な方法を約束する。
我々の包括的なPQAフレームワークであるPikaは、データセット、コード、モデルチェックポイントを含み、github.com/EMCarrami/Pikaでオープンにアクセスでき、この分野の広範な研究を促進する。
関連論文リスト
- ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - SciQAG: A Framework for Auto-Generated Science Question Answering Dataset with Fine-grained Evaluation [11.129800893611646]
SciQAGは、大規模言語モデル(LLM)に基づく科学文献の大規模なコーパスから高品質な科学質問応答ペアを自動生成するフレームワークである。
我々は,24分野にわたる22,743の科学論文から抽出された188,042のQAペアを含む大規模で高品質な科学QAデータセットを構築した。
SciQAG-24DはLLMの科学質問応答能力を評価するための新しいベンチマークタスクである。
論文 参考訳(メタデータ) (2024-05-16T09:42:37Z) - Around the GLOBE: Numerical Aggregation Question-Answering on
Heterogeneous Genealogical Knowledge Graphs with Deep Neural Networks [0.934612743192798]
本稿では,系統樹の数値集約QAのための新しいエンドツーエンド手法を提案する。
提案されたアーキテクチャであるGLOBEは、このタスクの精度を87%向上させることで、最先端のモデルとパイプラインを上回っている。
本研究は系譜情報センターや博物館に実際的な意味を持つ可能性がある。
論文 参考訳(メタデータ) (2023-07-30T12:09:00Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - ProQA: Structural Prompt-based Pre-training for Unified Question
Answering [84.59636806421204]
ProQAは統一されたQAパラダイムであり、単一のモデルによって様々なタスクを解決する。
全てのQAタスクの知識一般化を同時にモデル化し、特定のQAタスクの知識カスタマイズを維持します。
ProQAは、フルデータの微調整、数ショットの学習、ゼロショットテストシナリオの両方のパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2022-05-09T04:59:26Z) - Science Checker: Extractive-Boolean Question Answering For Scientific
Fact Checking [0.0]
本研究では,研究論文における事実と証拠からの合同推論に基づいて,科学的疑問を検証するためのマルチタスクアプローチを提案する。
提案した軽量かつ高速なアーキテクチャにより、平均エラー率は4%、F1スコアは95.6%に達した。
論文 参考訳(メタデータ) (2022-04-26T12:35:23Z) - CCQA: A New Web-Scale Question Answering Dataset for Model Pre-Training [21.07506671340319]
本稿では,Common Crawlプロジェクトに基づく質問応答データセットを提案する。
我々は、約1億3000万の多言語問合せ対を抽出し、約6000万の英語データポイントを抽出した。
これまでに見つからなかった自然QAペア数を用いて、質問応答タスクのための大規模ドメイン事前学習の可能性を示すために、人気のある言語モデルを事前訓練する。
論文 参考訳(メタデータ) (2021-10-14T21:23:01Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - CliniQG4QA: Generating Diverse Questions for Domain Adaptation of
Clinical Question Answering [27.45623324582005]
臨床質問応答(英: Clinical Question answering, QA)は、臨床テキストに基づく医療専門家の質問に自動的に答えることを目的としている。
CliniQG4QAを提案する。これは質問生成(QG)を利用して、新しい臨床状況に基づいてQAペアを合成する。
QAモデルのトレーニングに不可欠な多様な質問を生成するために,Seq2seqベースの質問句予測(QPP)モジュールを導入する。
論文 参考訳(メタデータ) (2020-10-30T02:06:10Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。