論文の概要: Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task
- arxiv url: http://arxiv.org/abs/2601.07696v1
- Date: Mon, 12 Jan 2026 16:29:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.631864
- Title: Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task
- Title(参考訳): ツールベース多言語質問応答タスクによる大規模言語モデルのメタレベル推論の探索
- Authors: Nick Ferguson, Alan Bundy, Kwabena Nuamah,
- Abstract要約: 我々はメタレベルの推論とオブジェクトレベルの推論を区別し、より構造化されたアプローチを取る。
我々は,様々な国における地政学的指標の値に基づいて,新たな質問応答タスクを設計する。
LLMはタスクに対して優れたメタレベルの推論を示すが、タスク理解のいくつかの面では欠点がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) are increasingly focused on "reasoning" ability, a concept with many overlapping definitions in the LLM discourse. We take a more structured approach, distinguishing meta-level reasoning (denoting the process of reasoning about intermediate steps required to solve a task) from object-level reasoning (which concerns the low-level execution of the aforementioned steps.) We design a novel question answering task, which is based around the values of geopolitical indicators for various countries over various years. Questions require breaking down into intermediate steps, retrieval of data, and mathematical operations over that data. The meta-level reasoning ability of LLMs is analysed by examining the selection of appropriate tools for answering questions. To bring greater depth to the analysis of LLMs beyond final answer accuracy, our task contains 'essential actions' against which we can compare the tool call output of LLMs to infer the strength of reasoning ability. We find that LLMs demonstrate good meta-level reasoning on our task, yet are flawed in some aspects of task understanding. We find that n-shot prompting has little effect on accuracy; error messages encountered do not often deteriorate performance; and provide additional evidence for the poor numeracy of LLMs. Finally, we discuss the generalisation and limitation of our findings to other task domains.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、LLMの言説に重複する多くの定義を持つ概念である「推論」能力にますます焦点を絞っている。
我々は、メタレベルの推論(課題解決に必要な中間ステップの推論プロセスを示す)とオブジェクトレベルの推論(上記のステップの低レベル実行に関するもの)を区別し、より構造化されたアプローチをとる。
質問は中間ステップ、データの検索、データ上の数学的操作に分解する必要がある。
LLMのメタレベルの推論能力は、質問に答えるための適切なツールの選択を調べることで分析される。
最終解答精度を超えてLLMの分析をより深く行うために,LLMのツールコール出力を比較し,推論能力の強さを推定する「意味的行動」を課題とする。
LLMはタスクに対して優れたメタレベルの推論を示すが、タスク理解のいくつかの面では欠点がある。
nショットプロンプトは精度にはほとんど影響を与えず、遭遇したエラーメッセージは性能が劣化しないことが多い。
最後に、他のタスク領域への発見の一般化と制限について論じる。
関連論文リスト
- DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - Disambiguation in Conversational Question Answering in the Era of LLMs and Agents: A Survey [54.90240495777929]
自然言語処理(NLP)におけるあいまいさは依然として根本的な課題である
LLM(Large Language Models)の出現により、あいまいさに対処することがさらに重要になった。
本稿では,言語駆動システムにおけるあいまいさの定義,形態,含意について考察する。
論文 参考訳(メタデータ) (2025-05-18T20:53:41Z) - Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering [1.9285000127136378]
大きな言語モデル(LLM)は自然言語のタスクに優れるが、複雑で多段階の推論を必要とする質問回答(QA)タスクでは課題に直面している。
これらのタスクのいくつかで必要とされる推論のタイプを概説し、メタレベルの推論の観点でそれらを再設計します。
論文 参考訳(メタデータ) (2025-02-14T17:55:43Z) - Investigating the Shortcomings of LLMs in Step-by-Step Legal Reasoning [34.427730009102966]
推論誤りを特定し,LLMの性能を評価するための自動評価フレームワークを開発した。
我々の研究は、論理集約的な複雑なタスクに対する推論チェーンの詳細なエラー解析に使用できる評価フレームワークとしても機能する。
論文 参考訳(メタデータ) (2025-02-08T19:49:32Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - When does In-context Learning Fall Short and Why? A Study on
Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。
ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。
我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文 参考訳(メタデータ) (2023-11-15T14:26:30Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shortcut Learning of Large Language Models in Natural Language
Understanding [119.45683008451698]
大規模言語モデル(LLM)は、一連の自然言語理解タスクにおいて最先端のパフォーマンスを達成した。
予測のショートカットとしてデータセットのバイアスやアーティファクトに依存するかも知れません。
これは、その一般化性と敵対的堅牢性に大きな影響を与えている。
論文 参考訳(メタデータ) (2022-08-25T03:51:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。