論文の概要: Learning to Reason in Structured In-context Environments with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23330v1
- Date: Sat, 27 Sep 2025 14:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.165685
- Title: Learning to Reason in Structured In-context Environments with Reinforcement Learning
- Title(参考訳): 強化学習を用いた構造型インコンテキスト環境における推論学習
- Authors: Peng Yu, Zeyuan Zhao, Shao Zhang, Luoyi Fu, Xinbing Wang, Ying Wen,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習(RL)を通して推論能力を大幅に向上させた。
textbfStructured textbfIn-context textbfEnvironment (SIE) フレームワークを紹介した。
SIEは大規模構造化データから推論環境を自動的に構築することでスケーラビリティを実現する。
- 参考スコア(独自算出の注目度): 45.96068681848423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved significant advancements in reasoning capabilities through reinforcement learning (RL) via environmental exploration. As the intrinsic properties of the environment determine the abilities that LLMs can learn, the environment plays a important role in the RL finetuning process. An ideal LLM reasoning environment should possess three core characteristics: scalability, generalizable reasoning, and verifiability. However, existing mathematical and coding environments are difficult to scale due to heavy reliance on expert annotation, while the skills learned in game-based environments are too specialized to generalize. To bridge this gap, we introduce the \textbf{S}tructured \textbf{I}n-context \textbf{E}nvironment (SIE) framework. SIE achieves scalability by automatically constructing reasoning environments from large-scale structured data, where the rich compositional patterns naturally support generalizable reasoning. Moreover, the explicit schemas and reasoning chains in structured data provide a foundation for rule-based verifiability. Experimental results show that SIE framework not only achieves substantial improvements in in-domain structured reasoning, but also enables the learned compositional reasoning skills to generalize effectively to out-of-domain mathematical and logical reasoning tasks. We further explored learning in information-limited partial SIEs and found that LLMs can infer the missing information through exploring the environment, leading to robust reasoning improvements and generalization performance.
- Abstract(参考訳): 大規模言語モデル (LLM) は環境探索を通じて強化学習 (RL) を通じて推論能力を大幅に向上させた。
環境の固有の性質がLLMが学べる能力を決定するため、環境はRL微調整プロセスにおいて重要な役割を果たす。
理想的なLCM推論環境は、スケーラビリティ、一般化可能な推論、検証可能性の3つのコア特性を持つべきである。
しかし,既存の数理・コーディング環境は専門家のアノテーションに大きく依存しているためスケールが困難であり,ゲームベース環境で学んだスキルは一般化するにはあまりにも専門的すぎる。
このギャップを埋めるために、我々は \textbf{S}tructured \textbf{I}n-context \textbf{E}nvironment (SIE)フレームワークを導入する。
SIEは大規模構造化データから推論環境を自動的に構築することでスケーラビリティを実現する。
さらに、構造化データの明示的なスキーマと推論チェーンは、ルールベースの検証可能性の基礎を提供する。
実験結果から、SIEフレームワークはドメイン内構造推論の大幅な改善を実現するだけでなく、学習された構成推論スキルをドメイン外の数学的および論理的推論タスクに効果的に一般化することができることがわかった。
さらに、情報限定部分SIEにおける学習について検討し、LLMが環境探索を通じて不足情報を推測し、堅牢な推論改善と一般化性能をもたらすことを発見した。
関連論文リスト
- LogiDynamics: Unraveling the Dynamics of Inductive, Abductive and Deductive Logical Inferences in LLM Reasoning [74.0242521818214]
本稿では,大言語モデル(LLM)におけるインダクティブ(システム1)と帰納的/帰納的(システム2)の推論の比較力学を体系的に検討する。
我々は、制御されたアナログ推論環境、多様度(テキスト、視覚、記号)、難易度、タスク形式(MCQ/フリーテキスト)を利用する。
我々の分析によると、System 2のパイプラインは一般的に、特に視覚的/象徴的なモダリティや難しいタスクにおいて優れており、System 1はテキストやより簡単な問題に対して競争力がある。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - Language Agents Meet Causality -- Bridging LLMs and Causal World Models [50.79984529172807]
因果表現学習を大規模言語モデルと統合する枠組みを提案する。
このフレームワークは、自然言語表現に関連付けられた因果変数を持つ因果世界モデルを学ぶ。
本研究では,時間的スケールと環境の複雑さを考慮した因果推論と計画課題の枠組みを評価する。
論文 参考訳(メタデータ) (2024-10-25T18:36:37Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - CLR-Fact: Evaluating the Complex Logical Reasoning Capability of Large Language Models over Factual Knowledge [44.59258397967782]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる印象的な機能を示している。
本稿では,LLMの複雑な論理的推論能力の体系的評価について述べる。
LLMは一般世界の知識の推論に優れるが、専門分野固有の知識では重大な課題に直面している。
論文 参考訳(メタデータ) (2024-07-30T05:40:32Z) - SpaRC and SpaRP: Spatial Reasoning Characterization and Path Generation for Understanding Spatial Reasoning Capability of Large Language Models [70.01883340129204]
空間推論は 生物学的と人工知能の両方において 重要な要素です
本稿では,現在最先端の大規模言語モデル (LLM) の空間的推論能力について包括的に検討する。
論文 参考訳(メタデータ) (2024-06-07T01:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。