Fugu-MT 論文翻訳(概要): Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models

論文の概要: Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models

arxiv url: http://arxiv.org/abs/2503.23487v1
Date: Sun, 30 Mar 2025 15:41:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:57.147777
Title: Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models
Title（参考訳）: 大規模言語と推論モデルを用いたシステム関係推論のベンチマーク
Authors: Irtaza Khalid, Amir Masoud Nourollah, Steven Schockaert,
Abstract要約: 大規模言語モデル(LLM)は、体系的な推論に苦慮している。本稿では,関係合成の体系的推論を必要とするタスクに焦点をあてる。その結果,LLM と LRM の総合的な性能は,ランダムな確率よりも優れていた。
参考スコア（独自算出の注目度）: 15.56445409535547
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have been found to struggle with systematic reasoning. Even on tasks where they appear to perform well, their performance often depends on shortcuts, rather than on genuine reasoning abilities, leading them to collapse on out-of-distribution examples. Post-training strategies based on reinforcement learning and chain-of-thought prompting have recently been hailed as a step change. However, little is still known about the potential of the resulting ``Large Reasoning Models'' (LRMs) beyond problem solving in mathematics and programming, where finding genuine out-of-distribution problems can be difficult. In this paper, we focus on tasks that require systematic reasoning about relational compositions, especially for qualitative spatial and temporal reasoning. These tasks allow us to control the difficulty of problem instances, and measure in a precise way to what extent models can generalise. We find that that the considered LLMs and LRMs overall perform poorly overall, albeit better than random chance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、体系的な推論に苦慮している。うまく機能しているように見えるタスクであっても、そのパフォーマンスは真の推論能力よりもショートカットに依存することが多く、アウト・オブ・ディストリビューション(out-of-distriion)の例で崩壊する。強化学習とチェーン・オブ・ソート・プロンプトに基づくポストトレーニング戦略は、最近ステップ・チェンジとして評価されている。しかし、数学やプログラミングにおける問題の解決以上の「大推論モデル」(LRM)がもたらされる可能性については、まだ分かっていない。本稿では,関係合成の体系的推論を必要とするタスク,特に質的空間的・時間的推論に焦点をあてる。これらのタスクにより、問題インスタンスの難易度を制御でき、モデルの一般化度を正確に測定できる。その結果,LLM と LRM の総合的な性能は,ランダムな確率よりも優れていることがわかった。

関連論文リスト

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文参考訳（メタデータ） (2026-03-03T18:48:15Z)
Large Language Model Reasoning Failures [3.139060394530521]
大規模言語モデル(LLM)における推論失敗に関する総合的な調査を初めて紹介する。我々は、推論をエンボディード型と非エンボディード型に区別する新しい分類フレームワークを導入する。それぞれの推論失敗に対して、明確な定義を提供し、既存の研究を分析し、根本原因を探究し、緩和戦略を提示する。
論文参考訳（メタデータ） (2026-02-05T20:29:26Z)
Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文参考訳（メタデータ） (2025-10-28T11:01:10Z)
Think Smart, Not Hard: Difficulty Adaptive Reasoning for Large Audio Language Models [28.578488403845146]
大規模音声言語モデル(LALM)は、顕著な推論能力を示している。 LALMの難易度適応推論法を提案する。
論文参考訳（メタデータ） (2025-09-26T06:49:14Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文参考訳（メタデータ） (2025-05-26T17:59:53Z)
Thinkless: LLM Learns When to Think [57.857534644932194]
推論モデル(Reasoning Language Models)は、複雑な論理的推論を必要とするタスクにおいて顕著な性能を示す。我々は,LLMが短文推論と長文推論を適応的に選択できる学習可能なフレームワークであるThinklessを提案する。 Minerva Algebra、MATH-500、GSM8Kなどのベンチマークでは、Thinklessはロングチェーン思考の使用を50%から90%削減することができる。
論文参考訳（メタデータ） (2025-05-19T17:24:16Z)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文参考訳（メタデータ） (2025-04-04T04:04:56Z)
MetaLadder: Ascending Mathematical Solution Quality via Analogical-Problem Reasoning Transfer [37.81465564673498]
大規模言語モデル(LLM)は、数学的推論タスクを解く上で有望な能力を示した。メタプロブレムのリコールとリフレクションを LLM に明示的に促すフレームワークである textbfMetaLadder を提案する。我々のMetaLadderはLLMの問題解決精度を大幅に向上させることを示す。
論文参考訳（メタデータ） (2025-03-19T04:36:35Z)
Navigating Semantic Relations: Challenges for Language Models in Abstract Common-Sense Reasoning [5.4141465747474475]
大規模言語モデル(LLM)は、人間のようなテキストを生成し、適度な複雑さの問題を解くことで、顕著な性能を達成した。概念ネット知識グラフを用いて,LLMにおける抽象的常識推論を体系的に評価する。
論文参考訳（メタデータ） (2025-02-19T20:20:24Z)
Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文参考訳（メタデータ） (2025-02-17T09:07:32Z)
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.056519816264505]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文参考訳（メタデータ） (2025-02-14T06:05:12Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。 SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-03T02:31:26Z)
Make LLMs better zero-shot reasoners: Structure-orientated autonomous reasoning [52.83539473110143]
本稿では,Large Language Models (LLM) の質問をよりよく理解するための構造指向分析手法を提案する。複雑な質問応答タスクの信頼性をさらに向上するために,多エージェント推論システム,構造指向自律推論エージェント(SARA)を提案する。大規模な実験により,提案システムの有効性が検証された。
論文参考訳（メタデータ） (2024-10-18T05:30:33Z)
Not All LLM Reasoners Are Created Equal [58.236453890457476]
小学校数学におけるLLMの解答能力の深さについて検討する。既存の数式語問題に対して,それらの性能を併用して評価する。
論文参考訳（メタデータ） (2024-10-02T17:01:10Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
Can LLMs Reason in the Wild with Programs? [20.47557047823847]
本研究では, LLM が未知型推論問題の解法を課題とする, 野生における推論の課題を紹介する。我々は,多種多様な推論問題に対する詳細な解を含む大規模戦術誘導軌道データセットを作成する。実験では、既存のLLMは曖昧で混在したスコープの問題で著しく失敗する。
論文参考訳（メタデータ） (2024-06-19T18:26:19Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
LogicBench: Towards Systematic Evaluation of Logical Reasoning Ability of Large Language Models [52.03659714625452]
最近開発された大規模言語モデル (LLM) は、幅広い言語理解タスクにおいて非常によく機能することが示されている。しかし、それらは自然言語に対して本当に「理性」があるのだろうか? この疑問は研究の注目を集めており、コモンセンス、数値、定性的など多くの推論技術が研究されている。
論文参考訳（メタデータ） (2024-04-23T21:08:49Z)
How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文参考訳（メタデータ） (2024-02-25T10:13:04Z)
Can LLMs Reason with Rules? Logic Scaffolding for Stress-Testing and Improving LLMs [87.34281749422756]
大規模言語モデル(LLM)は、様々な推論タスクにおいて、印象的な人間的なパフォーマンスを実現している。しかし、その根底にある推論規則の熟達性は、人間の能力に欠ける。本稿では,推論ルールベースであるULogicを構築するための,推論ルール生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-18T03:38:51Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
LaRS: Latent Reasoning Skills for Chain-of-Thought Reasoning [61.7853049843921]
Chain-of-Thoughting(CoT)プロンプトは、大規模言語モデル(LLM)のための一般的なコンテキスト内学習手法である。本稿では、教師なし学習を用いて有理数の潜在空間表現を生成するLaRS(Lalatnt Reasoning Skills)という新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-12-07T20:36:10Z)
Concise and Organized Perception Facilitates Reasoning in Large Language Models [31.238220405009617]
推論に取り組むために大規模な言語モデル(LLM)をエクスプロイトすることは、注目を集めている。複雑な論理的問題において満足な結果を達成することは依然として非常に困難であり、コンテキスト内の多くの前提とマルチホップ推論が特徴である。本研究は,まず情報フローの観点からそのメカニズムを考察し,不規則な内容や無関係な内容を扱う際に,人間のような認知バイアスに類似した困難に直面することを明らかにする。
論文参考訳（メタデータ） (2023-10-05T04:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。