論文の概要: AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.03537v1
- Date: Wed, 27 Aug 2025 17:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.908674
- Title: AR$^2$: Adversarial Reinforcement Learning for Abstract Reasoning in Large Language Models
- Title(参考訳): AR$^2$:大規模言語モデルにおける抽象推論のための逆強化学習
- Authors: Cheng-Kai Yeh, Hsing-Wang Lee, Chung-Hung Kuo, Hen-Hsen Huang,
- Abstract要約: 本稿では,大規模言語モデル (LLM) の抽象化能力を高めるために設計された新しいフレームワークである AR$2$ (Adversarial Reinforcement Learning for Abstract Reasoning) を提案する。
AR$2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するために教師モデルを採用している。
学生符号化モデルは、基礎となる計算カーネルを抽出することにより、これらの複雑な物語問題を解決するために訓練される。
- 参考スコア(独自算出の注目度): 12.484537674896908
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abstraction--the ability to recognize and distill essential computational patterns from complex problem statements--is a foundational skill in computer science, critical both for human problem-solvers and coding-oriented large language models (LLMs). Despite recent advances in training LLMs for code generation using reinforcement learning (RL), most existing approaches focus primarily on superficial pattern recognition, overlooking explicit training for abstraction. In this study, we propose AR$^2$ (Adversarial Reinforcement Learning for Abstract Reasoning), a novel framework explicitly designed to enhance the abstraction abilities of LLMs. AR$^2$ employs a teacher model to transform kernel problems into narrative-rich, challenging descriptions without changing their fundamental logic. Simultaneously, a student coding model is trained to solve these complex narrative problems by extracting their underlying computational kernels. Experimental results demonstrate that AR$^2$ substantially improves the student model's accuracy on previously unseen, challenging programming tasks, underscoring abstraction as a key skill for enhancing LLM generalization.
- Abstract(参考訳): 抽象化 - 複雑な問題文から必須の計算パターンを認識して精錬する能力 - コンピュータ科学の基本技術であり、人間の問題解決とコーディング指向の大規模言語モデル(LLM)の両方にとって重要なものである。
強化学習(RL)を用いたコード生成のためのLLMのトレーニングは近年進歩しているが、既存のアプローチのほとんどは表面パターン認識に重点を置いており、抽象のための明示的なトレーニングを見越している。
本研究では,AL$^2$ (Adversarial Reinforcement Learning for Abstract Reasoning)を提案する。
AR$^2$は、基本ロジックを変更することなく、カーネル問題を物語に富んだ、挑戦的な記述に変換するための教師モデルを採用している。
同時に、学生のプログラミングモデルは、基礎となる計算カーネルを抽出することで、これらの複雑な物語問題を解決するために訓練される。
実験結果から,従来のプログラミングタスクにおいて,AR$^2$は学生モデルの精度を大幅に向上させることを示す。
関連論文リスト
- Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Learn to Think: Bootstrapping LLM Reasoning Capability Through Graph Representation Learning [19.75678229122211]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
それらは、訓練のための高い計算コストや複雑な推論問題の解決における制限など、依然として重大な課題に直面している。
より柔軟で適応的な推論機能を実現するために,グラフ学習を活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-09T02:51:22Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。