論文の概要: AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03537v1
- Date: Wed, 27 Aug 2025 17:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.908674
- Title: AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models
- Title(参考訳): AR$^2$:大規模言語モデルにおける抽象推論のための逆強化学習
- Authors: Cheng-Kai Yeh, Hsing-Wang Lee, Chung-Hung Kuo, Hen-Hsen Huang,
- Abstract要約: 本稿では,大規模言語モデル (LLM) の抽象化能力を高めるために設計された新しいフレームワークである AR$2$ (Adversarial Reinforcement Learning for Abstract Reasoning) を提案する。
AR$2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するために教師モデルを採用している。
学生符号化モデルは、基礎となる計算カーネルを抽出することにより、これらの複雑な物語問題を解決するために訓練される。
- 参考スコア(独自算出の注目度): 12.484537674896908
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abstraction--the ability to recognize and distill essential computational patterns from complex problem statements--is a foundational skill in computer science, critical both for human problem-solvers and coding-oriented large language models (LLMs). Despite recent advances in training LLMs for code generation using reinforcement learning (RL), most existing approaches focus primarily on superficial pattern recognition, overlooking explicit training for abstraction. In this study, we propose AR$^2$ (Adversarial Reinforcement Learning for Abstract Reasoning), a novel framework explicitly designed to enhance the abstraction abilities of LLMs. AR$^2$ employs a teacher model to transform kernel problems into narrative-rich, challenging descriptions without changing their fundamental logic. Simultaneously, a student coding model is trained to solve these complex narrative problems by extracting their underlying computational kernels. Experimental results demonstrate that AR$^2$ substantially improves the student model's accuracy on previously unseen, challenging programming tasks, underscoring abstraction as a key skill for enhancing LLM generalization.
- Abstract(参考訳): 抽象化 - 複雑な問題文から必須の計算パターンを認識して精錬する能力 - コンピュータ科学の基本技術であり、人間の問題解決とコーディング指向の大規模言語モデル(LLM)の両方にとって重要なものである。
強化学習(RL)を用いたコード生成のためのLLMのトレーニングは近年進歩しているが、既存のアプローチのほとんどは表面パターン認識に重点を置いており、抽象のための明示的なトレーニングを見越している。
本研究では,AL$^2$ (Adversarial Reinforcement Learning for Abstract Reasoning)を提案する。
AR$^2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するための教師モデルを採用している。
同時に、学生のプログラミングモデルは、基礎となる計算カーネルを抽出することで、これらの複雑な物語問題を解決するために訓練される。
実験結果から,従来のプログラミングタスクにおいて,AR$^2$は学生モデルの精度を大幅に向上させることを示す。
関連論文リスト
- Learning Abstractions for Hierarchical Planning in Program-Synthesis Agents [54.73952501784257]
人間は抽象化を学び、それらを効率的に計画し、タスクをまたいで迅速に一般化する。
我々は,再利用可能な抽象化を積極的に学習する新しい大規模言語モデル (LLM) エージェントである TheoryCoder-2 を紹介する。
我々は,BabyAI,Minihack,SokobanのようなVGDLゲームなど,さまざまな環境で実験を行っている。
論文 参考訳(メタデータ) (2026-01-31T23:01:51Z) - Search-R3: Unifying Reasoning and Embedding Generation in Large Language Models [11.39711340224126]
Search-R3は、Large Language Modelsを適用して、彼らの推論プロセスの直接出力として検索埋め込みを生成する新しいフレームワークである。
我々のアプローチはLLMのチェーン・オブ・シント機能を利用しており、複雑な意味解析を通じてステップ・バイ・ステップを推論することでより効果的な埋め込みを実現できる。
論文 参考訳(メタデータ) (2025-10-08T14:16:20Z) - RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems [98.98963933669751]
問題が発生したら、複数の抽象化を提案できるモデルをトレーニングし、続いてソリューション構築のインセンティブを与えるRLを作ります。
この結果、RLトレーニングパラダイムはRLADと呼ばれ、抽象化ジェネレータとソリューションジェネレータを共同で訓練する。
我々は、大規模なテスト予算で多くのソリューションを生成するよりも、より多くのテスト時間計算を抽象化の生成に割り当てることが、パフォーマンスに有益であることを示しています。
論文 参考訳(メタデータ) (2025-10-02T17:44:23Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。
より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-09T02:51:22Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。
真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。
我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文 参考訳(メタデータ) (2024-10-16T06:51:09Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。