論文の概要: Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective
- arxiv url: http://arxiv.org/abs/2505.23833v1
- Date: Wed, 28 May 2025 09:02:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.549404
- Title: Benchmarking Abstract and Reasoning Abilities Through A Theoretical Perspective
- Title(参考訳): 理論的観点からの要約と推論能力のベンチマーク
- Authors: Qingchuan Ma, Yuhang Wu, Xiawu Zheng, Rongrong Ji,
- Abstract要約: 抽象的推論を本質的なパターンを抽出する能力として定義する数学的枠組みを開発する。
基本的な推論精度を計測する(scoreGamma)と、特定のシンボルに依存するモデルの定量化(scoreDelta)である。
- 参考スコア(独自算出の注目度): 59.7140089198992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to establish a simple, effective, and theoretically grounded benchmark for rigorously probing abstract reasoning in Large Language Models (LLMs). To achieve this, we first develop a mathematic framework that defines abstract reasoning as the ability to: (i) extract essential patterns independent of surface representations, and (ii) apply consistent rules to these abstract patterns. Based on this framework, we introduce two novel complementary metrics: \(\scoreGamma\) measures basic reasoning accuracy, while \(\scoreDelta\) quantifies a model's reliance on specific symbols rather than underlying patterns - a key indicator of true abstraction versus mere memorization. To implement this measurement, we design a benchmark: systematic symbol remapping in rule-based tasks, which forces models to demonstrate genuine pattern recognition beyond superficial token matching. Extensive LLM evaluations using this benchmark (commercial API models, 7B-70B, multi-agent) reveal:1) critical limitations in non-decimal arithmetic and symbolic reasoning; 2) persistent abstraction gaps despite chain-of-thought prompting; and 3) \(\scoreDelta\)'s effectiveness in robustly measuring memory dependence by quantifying performance degradation under symbol remapping, particularly highlighting operand-specific memorization. These findings underscore that current LLMs, despite domain-specific strengths, still lack robust abstract reasoning, highlighting key areas for future improvement.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における抽象的推論の厳密な検証のための,シンプルで効果的で理論的に基礎付けられたベンチマークを確立することを目的とする。
これを実現するために、まず抽象的推論を能力として定義する数学的フレームワークを開発する。
一 表面表現によらない必須パターンを抽出し、
(二)これらの抽象パターンに一貫した規則を適用する。
この枠組みに基づいて、我々は2つの新しい補完指標を導入する: \(\scoreGamma\) は基本的な推論精度を測り、 \(\scoreDelta\) は、基礎となるパターンよりも特定のシンボルへの依存を定量化します。
この測定を実装するために,ルールベースタスクにおけるシステマティックシンボルのリマッピングというベンチマークを設計し,仮想トークンマッチング以上の真のパターン認識をモデルに示す。
このベンチマーク(Commercial API Model, 7B-70B, multi-agent)を用いたLLMの大規模評価の結果,1)非決定的算術と記号的推論の限界が明らかになった。
2) チェーン・オブ・シークレット・プロンプトに拘わらず,永続的な抽象的ギャップ
3) \(\scoreDelta\)がシンボルリマッピングによる性能劣化を定量化することで、メモリ依存を堅牢に測定する効果、特にオペランド固有の記憶を強調。
これらの知見は、現在のLLMはドメイン固有の強みにもかかわらず、頑健な抽象的推論を欠いていることを示し、今後の改善の鍵となる領域を強調している。
関連論文リスト
- Enhancing Logical Reasoning in Language Models via Symbolically-Guided Monte Carlo Process Supervision [38.592071445554836]
大規模言語モデル(LLM)は、数学的および論理的推論ベンチマークにおいて有望な性能を示している。
LLMは内容のバリエーションに影響を受けやすいため、その推論プロセスをサポートする堅牢な象徴的抽象化が欠如していることが示される。
既存のアプローチでは、信頼性とスケーラブルな検証メカニズムの開発に関わる課題のために、シンボル表現を効果的に活用できない。
論文 参考訳(メタデータ) (2025-05-26T18:06:39Z) - When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs [16.659986373052217]
連鎖推論は命令追従精度を著しく低下させる。
これは、推論によって引き起こされる命令追従の失敗を体系的に公開する最初の作業である。
論文 参考訳(メタデータ) (2025-05-16T16:36:00Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - DAReN: A Collaborative Approach Towards Reasoning And Disentangling [27.50150027974947]
本稿では,2つのタスクを協調的に改善するために,帰納的バイアスの弱い形式を活用する,エンドツーエンドの共同表現推論学習フレームワークを提案する。
GM-RPMの原理に基づくDAReN(Disentangling based Abstract Reasoning Network)を用いてこれを実現した。
論文 参考訳(メタデータ) (2021-09-27T16:10:30Z) - Efficient Iterative Amortized Inference for Learning Symmetric and
Disentangled Multi-Object Representations [8.163697683448811]
本稿では,オブジェクト中心表現の教師なし学習のための効率的なフレームワークであるEfficientMORLを紹介する。
対称性と非絡み合いの両方を必要とすることによる最適化の課題は、高コスト反復的償却推論によって解決できることを示す。
標準のマルチオブジェクト・ベンチマークでは,強いオブジェクト分解と歪みを示しながら,ほぼ1桁の高速なトレーニングとテスト時間推定を実現している。
論文 参考訳(メタデータ) (2021-06-07T14:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。