論文の概要: From Reasoning to Generalization: Knowledge-Augmented LLMs for ARC Benchmark
- arxiv url: http://arxiv.org/abs/2505.17482v1
- Date: Fri, 23 May 2025 05:21:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.832615
- Title: From Reasoning to Generalization: Knowledge-Augmented LLMs for ARC Benchmark
- Title(参考訳): 推論から一般化へ:ARCベンチマークのための知識強化LDM
- Authors: Chao Lei, Nir Lipovetzky, Krista A. Ehinger, Yanchuan Chang,
- Abstract要約: 近年の理学研究は,数学や理科試験などの課題に対して高い性能を発揮している。
抽象的推論や一般化のような人間の知能のコア認知能力はいまだ未解明のままである。
我々は,近年の推論指向LLMを抽象推論コーパスのベンチマークで評価した。
- 参考スコア(独自算出の注目度): 8.827173113748701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent reasoning-oriented LLMs have demonstrated strong performance on challenging tasks such as mathematics and science examinations. However, core cognitive faculties of human intelligence, such as abstract reasoning and generalization, remain underexplored. To address this, we evaluate recent reasoning-oriented LLMs on the Abstraction and Reasoning Corpus (ARC) benchmark, which explicitly demands both faculties. We formulate ARC as a program synthesis task and propose nine candidate solvers. Experimental results show that repeated-sampling planning-aided code generation (RSPC) achieves the highest test accuracy and demonstrates consistent generalization across most LLMs. To further improve performance, we introduce an ARC solver, Knowledge Augmentation for Abstract Reasoning (KAAR), which encodes core knowledge priors within an ontology that classifies priors into three hierarchical levels based on their dependencies. KAAR progressively expands LLM reasoning capacity by gradually augmenting priors at each level, and invokes RSPC to generate candidate solutions after each augmentation stage. This stage-wise reasoning reduces interference from irrelevant priors and improves LLM performance. Empirical results show that KAAR maintains strong generalization and consistently outperforms non-augmented RSPC across all evaluated LLMs, achieving around 5% absolute gains and up to 64.52% relative improvement. Despite these achievements, ARC remains a challenging benchmark for reasoning-oriented LLMs, highlighting future avenues of progress in LLMs.
- Abstract(参考訳): 近年の理学研究は,数学や理科試験などの課題に対して高い性能を発揮している。
しかし、抽象的推論や一般化のような人間の知能の中核的な認知能力はいまだ未解明のままである。
これを解決するために,我々は最近の推論指向LLMをARC(Abstraction and Reasoning Corpus)ベンチマークで評価した。
プログラム合成タスクとしてARCを定式化し、9つの候補解法を提案する。
実験結果から,繰り返しサンプリング計画支援コード生成(RSPC)が最も高いテスト精度を達成し,ほとんどのLLMに対して一貫した一般化を示すことがわかった。
さらに性能向上のために,我々はARCソルバであるKnowledge Augmentation for Abstract Reasoning (KAAR)を導入し,オントロジー内でコア知識を符号化し,それらの依存関係に基づいて事前を3つの階層レベルに分類する。
KAARは、各レベルで段階的に事前を増大させ、LSM推論能力を徐々に拡張し、RSPCを起動し、各拡張段階の後に候補解を生成する。
この段階的推論は、無関係な先行からの干渉を低減し、LLM性能を向上させる。
実験の結果, KAARは高い一般化を維持し, 全評価LCMにおいて非増強RSPCよりも常に優れており, 絶対利得は5%程度, 相対改善は64.52%程度であることがわかった。
これらの成果にもかかわらず、ARC は推論指向 LLM の挑戦的なベンチマークであり、今後の LLM の進歩を浮き彫りにしている。
関連論文リスト
- MADIL: An MDL-based Framework for Efficient Program Synthesis in the ARC Benchmark [0.0]
ARC(Abstraction and Reasoning Corpus)ベンチマークは、最小限のトレーニング要件に基づいてインテリジェンスを評価する。
LLM(Large Language Models)は、最近ARCの性能を改善し、大規模な事前学習と高い計算コストに依存している。
我々は,MDL(Minimum Description Length)の原理を有効活用した新しい手法であるMADILを紹介した。
論文 参考訳(メタデータ) (2025-05-02T07:39:08Z) - Generative Evaluation of Complex Reasoning in Large Language Models [39.195491367590485]
大規模言語モデル(LLM)における推論評価に特化して設計された生成的評価フレームワークであるKUMOを紹介する。
自動パイプラインを通じて、KUMOは、超人記憶よりも真の一般化を示すために、オープンエンドドメインにまたがる新しいタスクを連続的に生成する。
我々は、KUMOが作成した100のドメインにまたがる5000のタスクに対して、23の最先端LCMを評価し、大学生に対する推論能力をベンチマークした。
論文 参考訳(メタデータ) (2025-04-03T17:54:18Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Efficient Reinforcement Learning with Large Language Model Priors [18.72288751305885]
大規模言語モデル(LLM)は、最近、強力な汎用ツールとして登場した。
本稿では,従来の行動分布としてLLMを扱い,それらをRLフレームワークに統合することを提案する。
LLMに基づくアクションの事前処理を取り入れることで、探索と複雑性の最適化が大幅に削減されることを示す。
論文 参考訳(メタデータ) (2024-10-10T13:54:11Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Improve Temporal Awareness of LLMs for Sequential Recommendation [61.723928508200196]
大規模言語モデル(LLM)は、幅広い汎用タスクを解く際、印象的なゼロショット能力を示した。
LLMは時間的情報の認識と利用に不足しており、シーケンシャルなデータの理解を必要とするタスクではパフォーマンスが悪い。
LLMに基づくシーケンシャルレコメンデーションのために、歴史的相互作用の中で時間情報を利用する3つのプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2024-05-05T00:21:26Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。