Fugu-MT 論文翻訳(概要): MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension

論文の概要: MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension

arxiv url: http://arxiv.org/abs/2403.08192v1
Date: Wed, 13 Mar 2024 02:26:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 15:49:51.812386
Title: MoleculeQA: A Dataset to Evaluate Factual Accuracy in Molecular Comprehension
Title（参考訳）: MoleculeQA: 分子の実際の精度を評価するデータセット理解
Authors: Xingyu Lu, He Cao, Zijing Liu, Shengyuan Bai, Leqing Chen, Yuan Yao, Hai-Tao Zheng, Yu Li
Abstract要約: 62KのQA対を23K以上持つ新しいQAデータセットであるMoleculeQAを提案する。 Mo MoleculeQAは、分子の事実バイアス評価のための最初のベンチマークであるだけでなく、分子研究のための最大のQAデータセットでもある。
参考スコア（独自算出の注目度）: 25.3668113870921
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models are playing an increasingly significant role in molecular research, yet existing models often generate erroneous information, posing challenges to accurate molecular comprehension. Traditional evaluation metrics for generated content fail to assess a model's accuracy in molecular understanding. To rectify the absence of factual evaluation, we present MoleculeQA, a novel question answering (QA) dataset which possesses 62K QA pairs over 23K molecules. Each QA pair, composed of a manual question, a positive option and three negative options, has consistent semantics with a molecular description from authoritative molecular corpus. MoleculeQA is not only the first benchmark for molecular factual bias evaluation but also the largest QA dataset for molecular research. A comprehensive evaluation on MoleculeQA for existing molecular LLMs exposes their deficiencies in specific areas and pinpoints several particularly crucial factors for molecular understanding.
Abstract（参考訳）: 大規模言語モデルは分子研究においてますます重要な役割を担っているが、既存のモデルはしばしば誤った情報を生成し、正確な分子理解に挑戦している。生成されたコンテンツに対する従来の評価基準は、分子理解におけるモデルの精度を評価するのに失敗する。事実評価の欠如を是正するために,23K分子以上62KのQAペアを持つ新しいQAデータセットであるMoleculeQAを提案する。それぞれのQAペアは、手動質問、正の選択肢、3つの負の選択肢で構成され、権威分子コーパスからの分子記述と一貫した意味を持つ。 MoleculeQAは、分子の事実バイアス評価のための最初のベンチマークであるだけでなく、分子研究のための最大のQAデータセットでもある。既存の分子LLMに対する分子QAの包括的評価は、その特定の領域における欠陥を明らかにし、分子理解の重要な要素をいくつか挙げる。

関連論文リスト

MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs [8.534690300929343]
分子の性質の推論には分子グラフを解析し理解する能力が必要です大規模言語モデル(LLM)は、化学、分子名変換、キャプション、テキスト誘導生成、特性や反応予測といったタスクにますます応用されている。我々は,分子構造推論ベンチマークである分子IQを紹介した。
論文参考訳（メタデータ） (2026-01-21T18:58:01Z)
KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge [73.51130155601824]
KnowMol-100Kは100Kの微細な分子アノテーションを持つ大規模データセットである。また,既存の分子表現戦略の限界に効果的に対処する,化学的に不変な分子表現も提案する。 KnowMolは、分子理解および生成タスク間で優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-10-22T11:23:58Z)
$\ ext{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-08-12T05:46:47Z)
MolGround: A Benchmark for Molecular Grounding [10.242626234027755]
そこで本研究では,モデル参照能力の評価を目的とした分子基盤ベンチマークを提案する。これまでに117kのQAペアからなる分子理解ベンチマークを構築した。我々のシステムはGPT-4oを含む既存のモデルよりも優れており、その基盤出力は従来のタスクを強化するために統合されている。
論文参考訳（メタデータ） (2025-03-31T02:23:16Z)
Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。異なる分子エンコーダの相補的な情報を統合するモジュールを導入する。実験の結果,Moll-LLaMAは分子の一般的な特徴を理解することができることがわかった。
論文参考訳（メタデータ） (2025-02-19T05:49:10Z)
Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。 KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文参考訳（メタデータ） (2025-02-17T11:53:58Z)
FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。 FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。 MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T23:04:58Z)
ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文参考訳（メタデータ） (2024-07-24T01:46:55Z)
MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文参考訳（メタデータ） (2024-06-13T02:50:23Z)
Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。 TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文参考訳（メタデータ） (2024-03-20T02:15:55Z)
Interactive Molecular Discovery with Natural Language [69.89287960545903]
対象分子を記述・編集するための自然言語を用いた対話型分子設計を提案する。この課題をより良くするために、実験プロパティ情報を注入することによって強化された知識的で汎用的な生成事前学習モデルChatMolを設計する。
論文参考訳（メタデータ） (2023-06-21T02:05:48Z)
MolFM: A Multimodal Molecular Foundation Model [9.934141536012596]
MolFMは分子構造、バイオメディカルテキスト、知識グラフからの共同表現学習を容易にするために設計された多モード分子基盤モデルである。我々は,同分子の異なるモジュラリティ間の特徴空間における距離を最小化することにより,我々のクロスモーダル事前学習が局所的および大域的分子知識を捕捉する理論解析を行う。クロスモーダル検索では、MolFMは既存のモデルよりも12.13%、絶対利得は5.04%、ゼロショットと微調整がそれぞれ優れている。
論文参考訳（メタデータ） (2023-06-06T12:45:15Z)
Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文参考訳（メタデータ） (2023-02-04T01:32:40Z)
Domain-Agnostic Molecular Generation with Chemical Feedback [44.063584808910896]
MolGenは、分子生成に特化した事前訓練された分子言語モデルである。 1億以上の分子SELFIESを再構成することで構造的および文法的な洞察を内部化する。我々の化学フィードバックパラダイムは、モデルを分子幻覚から遠ざけ、モデルの推定確率と実世界の化学的嗜好との整合性を確保する。
論文参考訳（メタデータ） (2023-01-26T17:52:56Z)
A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文参考訳（メタデータ） (2022-09-12T00:56:57Z)
Interpretable Molecular Graph Generation via Monotonic Constraints [19.401468196146336]
ディープグラフ生成モデルは、分子設計をグラフ生成問題として扱う。既存のモデルには多くの欠点があり、解釈性や所望の分子特性に対する制御性が低い。本稿では,分子生成の解釈可能なモデルと深層制御可能なモデルを用いた新しい手法を提案する。
論文参考訳（メタデータ） (2022-02-28T08:35:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。