論文の概要: How to Detect and Defeat Molecular Mirage: A Metric-Driven Benchmark for Hallucination in LLM-based Molecular Comprehension
- arxiv url: http://arxiv.org/abs/2504.12314v1
- Date: Thu, 10 Apr 2025 04:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:05:37.891902
- Title: How to Detect and Defeat Molecular Mirage: A Metric-Driven Benchmark for Hallucination in LLM-based Molecular Comprehension
- Title(参考訳): 分子ミラーの検出と定義方法: LLMに基づく分子理解における幻覚のメトリクス駆動ベンチマーク
- Authors: Hao Li, Liuzhenghao Lv, He Cao, Zijing Liu, Zhiyuan Yan, Yu Wang, Yonghong Tian, Yu Li, Li Yuan,
- Abstract要約: 大規模言語モデルは、特に分子理解と解析のために、科学領域でますます使われている。
既存のモデルは幻覚の問題の影響を受けており、薬物設計と利用の誤りをもたらす。
まず,分子理解タスク,特にPubChemデータセットに見られる知識ショートカット現象に対するLLMの幻覚源の分析を行った。
bfMol-Halluは、生成したテキストと実際の分子特性の間の科学的関係に基づいて幻覚の度合いを定量化する新しいフリーフォーム評価指標である。
- 参考スコア(独自算出の注目度): 40.11675831240203
- License:
- Abstract: Large language models are increasingly used in scientific domains, especially for molecular understanding and analysis. However, existing models are affected by hallucination issues, resulting in errors in drug design and utilization. In this paper, we first analyze the sources of hallucination in LLMs for molecular comprehension tasks, specifically the knowledge shortcut phenomenon observed in the PubChem dataset. To evaluate hallucination in molecular comprehension tasks with computational efficiency, we introduce \textbf{Mol-Hallu}, a novel free-form evaluation metric that quantifies the degree of hallucination based on the scientific entailment relationship between generated text and actual molecular properties. Utilizing the Mol-Hallu metric, we reassess and analyze the extent of hallucination in various LLMs performing molecular comprehension tasks. Furthermore, the Hallucination Reduction Post-processing stage~(HRPP) is proposed to alleviate molecular hallucinations, Experiments show the effectiveness of HRPP on decoder-only and encoder-decoder molecular LLMs. Our findings provide critical insights into mitigating hallucination and improving the reliability of LLMs in scientific applications.
- Abstract(参考訳): 大規模言語モデルは、特に分子理解と解析のために、科学領域でますます使われている。
しかし、既存のモデルは幻覚の問題の影響を受け、薬物設計と利用の誤りを引き起こす。
本稿ではまず,分子理解タスク,特にPubChemデータセットに見られる知識ショートカット現象に対するLLMの幻覚源を解析する。
分子理解タスクにおける幻覚を計算効率で評価するために,生成したテキストと実際の分子特性との科学的関係に基づいて幻覚の度合いを定量化する新しい自由形式評価指標である「textbf{Mol-Hallu}」を紹介した。
分子理解タスクを行う様々なLDMにおける幻覚の程度を,モル-ハルル計量を用いて再評価し,解析した。
さらに,Halucination Reduction Post-processing stage~(HRPP)は分子幻覚を緩和するために提案され,実験ではデコーダのみおよびエンコーダ-デコーダ分子LLMに対するHRPPの有効性が示されている。
本研究は, 幻覚の緩和とLCMの信頼性向上に関する重要な知見を提供するものである。
関連論文リスト
- Mol-LLM: Generalist Molecular LLM with Improved Graph Utilization [8.846705148987652]
LLM(Large Language Models)は、分子タスクのための一般的なLLMの開発を動機付けている。
ナイーブな次世代予測トレーニングで訓練されたLSMは、元の分子と崩壊した分子の両方に同様の確率スコアを割り当てる。
本稿では, 徹底的なマルチモーダル命令チューニングと分子構造選好最適化に基づく新しいマルチモーダルトレーニング手法を提案する。
論文 参考訳(メタデータ) (2025-02-05T01:14:12Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された基礎モデルである。
MoleculeNetデータセット上でFARMを厳格に評価し、12タスク中10タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。