Fugu-MT 論文翻訳(概要): Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering

論文の概要: Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering

arxiv url: http://arxiv.org/abs/2502.10338v1
Date: Fri, 14 Feb 2025 17:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.81914
Title: Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering
Title（参考訳）: 質問応答のための大規模言語モデルのメタレベル推論とオブジェクトレベル推論の評価
Authors: Nick Ferguson, Liane Guillou, Alan Bundy, Kwabena Nuamah,
Abstract要約: 大きな言語モデル(LLM)は自然言語のタスクに優れるが、複雑で多段階の推論を必要とする質問回答(QA)タスクでは課題に直面している。これらのタスクのいくつかで必要とされる推論のタイプを概説し、メタレベルの推論の観点でそれらを再設計します。
参考スコア（独自算出の注目度）: 1.9285000127136378
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large Language Models (LLMs) excel in natural language tasks but still face challenges in Question Answering (QA) tasks requiring complex, multi-step reasoning. We outline the types of reasoning required in some of these tasks, and reframe them in terms of meta-level reasoning (akin to high-level strategic reasoning or planning) and object-level reasoning (embodied in lower-level tasks such as mathematical reasoning). Franklin, a novel dataset with requirements of meta- and object-level reasoning, is introduced and used along with three other datasets to evaluate four LLMs at question answering tasks requiring multiple steps of reasoning. Results from human annotation studies suggest LLMs demonstrate meta-level reasoning with high frequency, but struggle with object-level reasoning tasks in some of the datasets used. Additionally, evidence suggests that LLMs find the object-level reasoning required for the questions in the Franklin dataset challenging, yet they do exhibit strong performance with respect to the meta-level reasoning requirements.
Abstract（参考訳）: 大きな言語モデル(LLM)は自然言語のタスクに優れていますが、複雑な多段階推論を必要とする質問回答(QA)タスクでは依然として課題に直面しています。これらのタスクのいくつかで必要とされる推論のタイプを概説し、メタレベルの推論(高レベルの戦略的推論や計画)とオブジェクトレベルの推論(数学的推論のような低レベルのタスクに埋め込まれる)という観点で再編成する。メタレベルの推論とオブジェクトレベルの推論を必要とする新しいデータセットであるFranklinは、他の3つのデータセットとともに導入され、複数の推論ステップを必要とするタスクに応答する4つのLSMを評価するために使用される。人間のアノテーションによる研究の結果、LLMは高頻度でメタレベルの推論を示すが、使用されるデータセットのいくつかではオブジェクトレベルの推論タスクに苦労していることが示唆された。さらに、LCMはフランクリンデータセットの疑問に必要となるオブジェクトレベルの推論が困難であることを示しているが、メタレベルの推論要求に関して強いパフォーマンスを示している。

関連論文リスト

Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task [0.0]
我々はメタレベルの推論とオブジェクトレベルの推論を区別し、より構造化されたアプローチを取る。我々は,様々な国における地政学的指標の値に基づいて,新たな質問応答タスクを設計する。 LLMはタスクに対して優れたメタレベルの推論を示すが、タスク理解のいくつかの面では欠点がある。
論文参考訳（メタデータ） (2026-01-12T16:29:21Z)
MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI [59.196131618912005]
マルチモーダル大規模言語モデル(MLLM)の進展における推論の役割既存のMLLMベンチマークは、しばしば、長鎖推論能力の正確かつ包括的な評価において不足している。 MLLM長鎖推論能力を正確かつ包括的に評価する新しいベンチマークであるMMReasonを紹介する。
論文参考訳（メタデータ） (2025-06-30T07:14:38Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
QuestBench: Can LLMs ask the right question to acquire information in reasoning tasks? [17.854829489402324]
現実世界では、大きな言語モデルに対するクエリは、しばしば不特定であり、不足した情報を取得することでのみ解決可能である。クエストベンチ(QuestBench)は、少なくとも1つの質問で解ける未特定な推論タスクの集合である。
論文参考訳（メタデータ） (2025-03-28T17:58:40Z)
Advancing Reasoning in Large Language Models: Promising Methods and Approaches [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて著しく成功している。複雑な推論スパンニング論理推論、数学的問題解決、コモンセンス推論、そして多段階推論を実行する能力は、人間の期待に届かない。本調査は, LLMにおける推論向上技術に関する総合的なレビューを提供する。
論文参考訳（メタデータ） (2025-02-05T23:31:39Z)
Reasoning with Graphs: Structuring Implicit Knowledge to Enhance LLMs Reasoning [73.2950349728376]
大規模言語モデル(LLM)は、幅広いタスクで顕著な成功を収めている。しかし、彼らは情報片間の関係を理解し、推論する必要があるタスクの推論において、依然として課題に直面している。この課題は、論理的推論やマルチホップ質問応答など、多段階プロセスに関わるタスクにおいて特に顕著である。本稿では、まず文脈から明示的なグラフを構築することにより、グラフを用いた推論(RwG)を提案する。
論文参考訳（メタデータ） (2025-01-14T05:18:20Z)
CLR-Bench: Evaluating Large Language Models in College-level Reasoning [17.081788240112417]
大規模言語モデル(LLM)は、様々な言語理解タスクで顕著な性能を示した。複雑な大学レベルの推論において,LLMを包括的に評価するためにCLR-Benchを提案する。
論文参考訳（メタデータ） (2024-10-23T04:55:08Z)
Reasoning with Large Language Models, a Survey [2.831296564800826]
本稿では,LSMによるプロンプトベース推論の急速に進展する分野について概説する。我々の分類学は、多段階推論の生成、評価、制御の異なる方法を特定します。我々は, 自己改善, 自己回帰, 推論過程のいくつかのメタ能力が, プロンプトの司法的利用によって可能であることを発見した。
論文参考訳（メタデータ） (2024-07-16T08:49:35Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文参考訳（メタデータ） (2023-11-15T15:12:15Z)
DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文参考訳（メタデータ） (2023-10-28T10:05:51Z)
MuSR: Testing the Limits of Chain-of-thought with Multistep Soft Reasoning [63.80739044622555]
自然言語ナラティブで指定されたソフト推論タスクの言語モデルを評価するデータセットである MuSR を紹介する。このデータセットには2つの重要な特徴がある。まず、ニューロシンボリック合成-自然生成アルゴリズムによって生成される。第二に、私たちのデータセットインスタンスは、実世界の推論の領域に対応する無料のテキスト物語です。
論文参考訳（メタデータ） (2023-10-24T17:59:20Z)
Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文参考訳（メタデータ） (2023-10-13T14:53:06Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文参考訳（メタデータ） (2022-10-07T23:48:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。