論文の概要: Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering
- arxiv url: http://arxiv.org/abs/2502.10338v1
- Date: Fri, 14 Feb 2025 17:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:52.372950
- Title: Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering
- Title(参考訳): 質問応答のための大規模言語モデルのメタレベル推論とオブジェクトレベル推論の評価
- Authors: Nick Ferguson, Liane Guillou, Alan Bundy, Kwabena Nuamah,
- Abstract要約: 大きな言語モデル(LLM)は自然言語のタスクに優れるが、複雑で多段階の推論を必要とする質問回答(QA)タスクでは課題に直面している。
これらのタスクのいくつかで必要とされる推論のタイプを概説し、メタレベルの推論の観点でそれらを再設計します。
- 参考スコア(独自算出の注目度): 1.9285000127136378
- License:
- Abstract: Large Language Models (LLMs) excel in natural language tasks but still face challenges in Question Answering (QA) tasks requiring complex, multi-step reasoning. We outline the types of reasoning required in some of these tasks, and reframe them in terms of meta-level reasoning (akin to high-level strategic reasoning or planning) and object-level reasoning (embodied in lower-level tasks such as mathematical reasoning). Franklin, a novel dataset with requirements of meta- and object-level reasoning, is introduced and used along with three other datasets to evaluate four LLMs at question answering tasks requiring multiple steps of reasoning. Results from human annotation studies suggest LLMs demonstrate meta-level reasoning with high frequency, but struggle with object-level reasoning tasks in some of the datasets used. Additionally, evidence suggests that LLMs find the object-level reasoning required for the questions in the Franklin dataset challenging, yet they do exhibit strong performance with respect to the meta-level reasoning requirements.
- Abstract(参考訳): 大きな言語モデル(LLM)は自然言語のタスクに優れていますが、複雑な多段階推論を必要とする質問回答(QA)タスクでは依然として課題に直面しています。
これらのタスクのいくつかで必要とされる推論のタイプを概説し、メタレベルの推論(高レベルの戦略的推論や計画)とオブジェクトレベルの推論(数学的推論のような低レベルのタスクに埋め込まれる)という観点で再編成する。
メタレベルの推論とオブジェクトレベルの推論を必要とする新しいデータセットであるFranklinは、他の3つのデータセットとともに導入され、複数の推論ステップを必要とするタスクに応答する4つのLSMを評価するために使用される。
人間のアノテーションによる研究の結果、LLMは高頻度でメタレベルの推論を示すが、使用されるデータセットのいくつかではオブジェクトレベルの推論タスクに苦労していることが示唆された。
さらに、LCMはフランクリンデータセットの疑問に必要となるオブジェクトレベルの推論が困難であることを示しているが、メタレベルの推論要求に関して強いパフォーマンスを示している。
関連論文リスト
- Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。
複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。
本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文 参考訳(メタデータ) (2025-02-05T23:31:39Z) - Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。
しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。
この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。
本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文 参考訳(メタデータ) (2025-01-14T05:18:20Z) - CARL-GT: Evaluating Causal Reasoning Capabilities of Large Language Models [18.975064947089805]
因果推論能力は、教育や医療といった幅広い応用において、大きな言語モデル(LLM)にとって不可欠である。
グラフとタブラリデータを用いた大規模言語モデルのCAusal Reasoning機能を評価するCARL-GTというベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-23T20:34:32Z) - Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。
我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。
我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文 参考訳(メタデータ) (2024-07-16T08:49:35Z) - LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。
しかし、それらは自然言語に対して本当に「理性」があるのだろうか?
この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文 参考訳(メタデータ) (2024-04-23T21:08:49Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。
このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。
第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文 参考訳(メタデータ) (2023-10-24T17:59:20Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。