論文の概要: Reinforcement Learning in hyperbolic space for multi-step reasoning
- arxiv url: http://arxiv.org/abs/2507.16864v1
- Date: Mon, 21 Jul 2025 21:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.699044
- Title: Reinforcement Learning in hyperbolic space for multi-step reasoning
- Title(参考訳): 多段階推論のための双曲空間における強化学習
- Authors: Tao Xu, Dung-Yang Lee, Momiao Xiong,
- Abstract要約: 多段階推論は人工知能の基本的な課題である。
トランスフォーマーアーキテクチャと双曲幾何学の最近の進歩は、新しい解決策をもたらした。
本稿では,多段階推論のための強化学習に双曲変換器を統合する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.3031136203291833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step reasoning is a fundamental challenge in artificial intelligence, with applications ranging from mathematical problem-solving to decision-making in dynamic environments. Reinforcement Learning (RL) has shown promise in enabling agents to perform multi-step reasoning by optimizing long-term rewards. However, conventional RL methods struggle with complex reasoning tasks due to issues such as credit assignment, high-dimensional state representations, and stability concerns. Recent advancements in Transformer architectures and hyperbolic geometry have provided novel solutions to these challenges. This paper introduces a new framework that integrates hyperbolic Transformers into RL for multi-step reasoning. The proposed approach leverages hyperbolic embeddings to model hierarchical structures effectively. We present theoretical insights, algorithmic details, and experimental results that include Frontier Math and nonlinear optimal control problems. Compared to RL with vanilla transformer, the hyperbolic RL largely improves accuracy by (32%~44%) on FrontierMath benchmark, (43%~45%) on nonlinear optimal control benchmark, while achieving impressive reduction in computational time by (16%~32%) on FrontierMath benchmark, (16%~17%) on nonlinear optimal control benchmark. Our work demonstrates the potential of hyperbolic Transformers in reinforcement learning, particularly for multi-step reasoning tasks that involve hierarchical structures.
- Abstract(参考訳): マルチステップ推論は、数学的問題解決から動的環境における意思決定に至るまで、人工知能の基本的な課題である。
強化学習(Reinforcement Learning, RL)は、長期報酬を最適化することにより、エージェントが多段階推論を行えるようにする。
しかし、従来のRL法は、信用代入、高次元状態表現、安定性問題などの問題により、複雑な推論タスクに苦慮している。
トランスフォーマーアーキテクチャと双曲幾何学の最近の進歩は、これらの課題に対する新しい解決策を提供してきた。
本稿では,多段階推論のためのハイパボリックトランスフォーマーをRLに統合する新しいフレームワークを提案する。
提案手法は双曲的埋め込みを利用して階層構造を効果的にモデル化する。
本稿では、フロンティア数学や非線形最適制御問題を含む理論的洞察、アルゴリズムの詳細、実験結果について述べる。
RLとバニラ変圧器を比較すると、ハイパーボリックRLはFrontierMathベンチマークでは32%〜44%、非線形最適制御ベンチマークでは43%~45%、FrontierMathベンチマークでは16%~32%、非線形最適制御ベンチマークでは16%~17%、計算時間の大幅な削減を実現している。
我々の研究は、特に階層構造を含む多段階推論タスクにおいて、強化学習における双曲変換器の可能性を示す。
関連論文リスト
- Harnessing the Power of Gradient-Based Simulations for Multi-Objective Optimization in Particle Accelerators [5.565261874218803]
本稿では, 粒子加速器の深部微分可能強化学習アルゴリズムを用いてMOO問題の解法における微分可能性の効果を示す。
基礎となる問題は、個々の状態と行動の両方に厳密な制約を課し、ビームのエネルギー要求に対する累積的(グローバル)制約を課している。
論文 参考訳(メタデータ) (2024-11-07T15:55:05Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Reinforcement learning for anisotropic p-adaptation and error estimation in high-order solvers [0.37109226820205005]
強化学習(RL)を用いた高次h/pにおける異方性p適応の自動化と最適化のための新しい手法を提案する。
我々は,シミュレーションを行う際の最小限のオーバーコストを示す,主解法から切り離されたオフライントレーニング手法を開発した。
我々は、局所的な離散化誤差の定量化を可能にする、安価なRLベースの誤差推定手法を導出する。
論文 参考訳(メタデータ) (2024-07-26T17:55:23Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。