論文の概要: Benchmark for Assessing Olfactory Perception of Large Language Models
- arxiv url: http://arxiv.org/abs/2604.00002v1
- Date: Sun, 08 Mar 2026 23:33:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.176016
- Title: Benchmark for Assessing Olfactory Perception of Large Language Models
- Title(参考訳): 大規模言語モデルの嗅覚知覚評価のためのベンチマーク
- Authors: Eftychia Makri, Nikolaos Nakis, Laura Sisson, Gigi Minsky, Leandros Tassiulas, Vahid Satarifard, Nicholas A. Christakis,
- Abstract要約: このベンチマークには、8つのタスクカテゴリにまたがる1010の質問が含まれている。
各質問は、分子表現の効果を評価するために、複合名と異性体SMILESの2つのプロンプト形式で提示される。
化合物名プロンプトはアイソマーSMILESより一貫して優れており、利得は+2.4から+18.9ポイント(平均アポックス+7ポイント)である。
最高のパフォーマンスモデルは64.4%の精度に達し、嗅覚的推論において、出現する能力とかなりのギャップの両方を浮き彫りにする。
- 参考スコア(独自算出の注目度): 7.97124749994238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Here we introduce the Olfactory Perception (OP) benchmark, designed to assess the capability of large language models (LLMs) to reason about smell. The benchmark contains 1,010 questions across eight task categories spanning odor classification, odor primary descriptor identification, intensity and pleasantness judgments, multi-descriptor prediction, mixture similarity, olfactory receptor activation, and smell identification from real-world odor sources. Each question is presented in two prompt formats, compound names and isomeric SMILES, to evaluate the effect of molecular representations. Evaluating 21 model configurations across major model families, we find that compound-name prompts consistently outperform isomeric SMILES, with gains ranging from +2.4 to +18.9 percentage points (mean approx +7 points), suggesting current LLMs access olfactory knowledge primarily through lexical associations rather than structural molecular reasoning. The best-performing model reaches 64.4\% overall accuracy, which highlights both emerging capabilities and substantial remaining gaps in olfactory reasoning. We further evaluate a subset of the OP across 21 languages and find that aggregating predictions across languages improves olfactory prediction, with AUROC = 0.86 for the best performing language ensemble model. LLMs should be able to handle olfactory and not just visual or aural information.
- Abstract(参考訳): ここでは、嗅覚を判断する大規模言語モデル(LLM)の性能を評価するために設計されたOllfactory Perception(OP)ベンチマークを紹介する。
このベンチマークには、8つのタスクカテゴリにまたがる1010の質問が含まれており、匂いの分類、匂いの一次記述子識別、強度と快適性判定、多記述子予測、混合類似性、嗅覚受容体の活性化、現実世界の匂い源からの匂いの識別が含まれている。
各質問は、分子表現の効果を評価するために、複合名と異性体SMILESの2つのプロンプト形式で提示される。
主要なモデルファミリーで21のモデル構成を評価すると、複合名プロンプトはアイソマーSMILESを一貫して上回り、その利得は+2.4から+18.9のパーセンテージ(平均アロックス+7のポイント)であり、現在のLLMは構造分子推論よりも、主に語彙的関連性を通じて嗅覚知識にアクセスすることを示唆している。
最高の性能モデルは、全体的な精度64.4\%に達し、嗅覚的推論において、出現する能力とかなりのギャップの両方を強調している。
さらに、21言語にわたるOPのサブセットを評価し、AUROC = 0.86で最高のパフォーマンスの言語アンサンブルモデルに対して、言語間でのアグリゲーション予測が嗅覚予測を改善することを発見した。
LLMは視覚情報や聴覚情報だけでなく、嗅覚も扱えるべきです。
関連論文リスト
- Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement [1.8429656136522097]
本稿では,バイナリトークンレベルの分類,言語的特徴の統合,データ拡張を組み合わせた,MWE識別のための包括的アプローチを提案する。
我々のDeBERTa-v3大規模モデルは、CoAMデータセット上で69.8%のF1を達成し、このデータセットで最高の結果(Qwen-72B, 57.8% F1)を12ポイント上回り、パラメータは165倍少ない。
論文 参考訳(メタデータ) (2026-01-27T08:42:54Z) - QSAR-Guided Generative Framework for the Discovery of Synthetically Viable Odorants [0.39318191265352187]
生成人工知能は、テクスタイドノボ分子設計に有望なアプローチを提供する。
本稿では, 可変オートエンコーダ(VAE)と定量的構造活性相関モデル(QSAR)を組み合わせることで, 新規な臭気を発生させるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-28T21:06:01Z) - When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - QU-NLP at CheckThat! 2025: Multilingual Subjectivity in News Articles Detection using Feature-Augmented Transformer Models with Sequential Cross-Lingual Fine-Tuning [0.21756081703275998]
本稿では,主観性検出における2025タスク1のチェックタットに対するアプローチについて述べる。
本稿では,事前学習した言語モデルからの文脈埋め込みと統計的・言語的特徴を組み合わせた機能拡張型トランスフォーマーアーキテクチャを提案する。
モノリンガル,多言語,ゼロショット設定で,英語,アラビア語,ドイツ語,イタリア語,およびいくつかの未知言語を含む複数の言語で評価を行った。
論文 参考訳(メタデータ) (2025-07-01T13:39:59Z) - SCRum-9: Multilingual Stance Classification over Rumours on Social Media [15.412870757706473]
SCRum-9は、Xから7,516のツイートを含む9つの言語でRumour分析のための最大のデータセットである。
本稿では,多言語合成データを用いた姿勢分類手法を提案する。
SCRum-9は研究コミュニティに公開され、ソーシャルメディア上の誤解を招く物語の多言語分析のさらなる研究を促進する可能性がある。
論文 参考訳(メタデータ) (2025-05-25T00:50:43Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。