論文の概要: Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study
- arxiv url: http://arxiv.org/abs/2504.16414v1
- Date: Wed, 23 Apr 2025 04:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.998057
- Title: Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Case Study
- Title(参考訳): 大規模言語モデルにおけるマルチホップ推論の評価:化学中心のケーススタディ
- Authors: Mohammad Khodadad, Ali Shiraee Kasmaee, Mahdi Astaraki, Nicholas Sherck, Hamidreza Mahyar, Soheila Samiee,
- Abstract要約: 化学領域における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入する。
我々の手法はOpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合し、最近の文献から化学物質を抽出し、外部知識ベースで拡張して知識グラフを形成する。
実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9424565541639368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we introduced a new benchmark consisting of a curated dataset and a defined evaluation process to assess the compositional reasoning capabilities of large language models within the chemistry domain. We designed and validated a fully automated pipeline, verified by subject matter experts, to facilitate this task. Our approach integrates OpenAI reasoning models with named entity recognition (NER) systems to extract chemical entities from recent literature, which are then augmented with external knowledge bases to form a comprehensive knowledge graph. By generating multi-hop questions across these graphs, we assess LLM performance in both context-augmented and non-context augmented settings. Our experiments reveal that even state-of-the-art models face significant challenges in multi-hop compositional reasoning. The results reflect the importance of augmenting LLMs with document retrieval, which can have a substantial impact on improving their performance. However, even perfect retrieval accuracy with full context does not eliminate reasoning errors, underscoring the complexity of compositional reasoning. This work not only benchmarks and highlights the limitations of current LLMs but also presents a novel data generation pipeline capable of producing challenging reasoning datasets across various domains. Overall, this research advances our understanding of reasoning in computational linguistics.
- Abstract(参考訳): 本研究では,化学領域内における大規模言語モデルの構成的推論能力を評価するために,キュレートされたデータセットと定義された評価プロセスからなる新しいベンチマークを導入した。
私たちは、この作業を容易にするために、課題の専門家によって検証された完全自動化パイプラインを設計し、検証しました。
提案手法は,OpenAI推論モデルと名前付きエンティティ認識(NER)システムを統合して,最近の文献から化学物質を抽出し,外部知識ベースで拡張して総合知識グラフを形成する。
これらのグラフをまたいだマルチホップ質問を生成することにより、文脈拡張および非コンテキスト拡張設定におけるLLM性能を評価する。
実験により, 最先端モデルでさえ, マルチホップ構成推論において重要な課題に直面していることが明らかとなった。
その結果,文書検索によるLLMの強化の重要性が反映され,その性能向上に大きな影響を及ぼす可能性が示唆された。
しかし、完全な文脈での完全検索精度でさえ推論誤差を排除せず、構成的推論の複雑さを強調している。
これはベンチマークだけでなく、現在のLLMの限界を強調し、さまざまなドメインにまたがる挑戦的な推論データセットを生成することのできる、新しいデータ生成パイプラインも提示する。
本研究は,計算言語学における推論の理解を深めるものである。
関連論文リスト
- Improving Multilingual Retrieval-Augmented Language Models through Dialectic Reasoning Argumentations [65.11348389219887]
そこで,Dialectic-RAG(Dialectic-RAG, DRAG)を提案する。
我々は、文脈内学習戦略と、より小さなモデルをインストラクションするための実演の構築の両方において、我々のフレームワークが与える影響を示す。
論文 参考訳(メタデータ) (2025-04-07T06:55:15Z) - Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models [26.023148371263012]
マルチホップ事実検証のための構造化知識強化LLMベースネットワーク(LLM-SKAN)を提案する。
具体的には、LLM駆動の知識エクストラクタを用いて、エンティティとその複雑な関係を含むきめ細かい情報をキャプチャする。
4つの共通利用データセットに対する実験結果から,本モデルの有効性と優位性を示した。
論文 参考訳(メタデータ) (2025-03-11T14:47:24Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
我々は、大言語モデルの厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果,ほとんどのSOTA (State-of-the-art (SOTA) LLMは人体平均よりも著しく低下していることがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。
しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。
この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。
本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文 参考訳(メタデータ) (2025-01-14T05:18:20Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Can Large Language Models Understand Context? [17.196362853457412]
本稿では,生成モデルの評価に適合する既存のデータセットを適応させることにより,文脈理解ベンチマークを提案する。
実験結果から, 事前学習された高密度モデルでは, 最先端の微調整モデルと比較して, よりニュアンスな文脈特徴の理解に苦慮していることが明らかとなった。
LLM圧縮は研究と実世界のアプリケーションの両方において重要度が高くなっているため、文脈学習環境下での量子化モデルの文脈理解を評価する。
論文 参考訳(メタデータ) (2024-02-01T18:55:29Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Self-Convinced Prompting: Few-Shot Question Answering with Repeated
Introspection [13.608076739368949]
本稿では,大規模事前学習型言語モデルの可能性を活用する新しいフレームワークを提案する。
我々のフレームワークは、典型的な数発の連鎖プロンプトの出力を処理し、応答の正しさを評価し、回答を精査し、最終的には新しい解を生成する。
論文 参考訳(メタデータ) (2023-10-08T06:36:26Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Machine-assisted quantitizing designs: augmenting humanities and social sciences with artificial intelligence [0.0]
大規模言語モデル(LLM)は、人文科学や社会科学におけるデータ分析をスケールアップする前例のない機会であることが示された。
設計原則を定量化し、変換し、言語学から特徴分析し、人間の専門知識と機械のスケーラビリティを透過的に統合する混合手法を構築します。
このアプローチは、1ダース以上のLDM支援ケーススタディで議論され、9つの多様な言語、複数の規律、タスクをカバーしている。
論文 参考訳(メタデータ) (2023-09-24T14:21:50Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。