論文の概要: Latent Poincaré Shaping for Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.09375v1
- Date: Tue, 10 Feb 2026 03:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.353225
- Title: Latent Poincaré Shaping for Agentic Reinforcement Learning
- Title(参考訳): エージェント強化学習のための潜在ポアンカレ整形
- Authors: Hanchen Xia, Baoyou Chen, Zelin Zang, Yutang Ge, Guojiang Zhao, Siyu Zhu,
- Abstract要約: LaPhaは、AlphaZeroに似たLLMエージェントをポアンカレ潜在空間で訓練する方法である。
MATH-500では、Qwen2.5-Math-1.5Bを66.2%から88.2%に改善している。
AIME'24ではLaPha-1.5Bが56.7%、AIME'24ではLaPha-7Bが60.0%、AIME'25では53.3%に達する。
- 参考スコア(独自算出の注目度): 12.089248000026863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose LaPha, a method for training AlphaZero-like LLM agents in a Poincaré latent space. Under LaPha, the search process can be visualized as a tree rooted at the prompt and growing outward from the origin toward the boundary of the Poincaré ball, where negative curvature provides exponentially increasing capacity with radius. Using hyperbolic geodesic distance to rule-verified correctness, we define a node potential and assign dense process rewards by potential differences. We further attach a lightweight value head on the same shared latent space, enabling self-guided test-time scaling with almost no additional overhead. On MATH-500, LaPha improves Qwen2.5-Math-1.5B from 66.0% to 88.2%. With value-head-guided search, LaPha-1.5B reaches 56.7% accuracy on AIME'24, and LaPha-7B further achieves 60.0% on AIME'24 and 53.3% on AIME'25.
- Abstract(参考訳): ポアンカレ潜在空間におけるAlphaZeroのようなLSMエージェントの訓練方法であるLaPhaを提案する。
ラパの下では、探索過程はプロンプトに根付いた木として視覚化され、ポアンカレ球の境界に向かって外側に成長し、負の曲率によって半径が指数関数的に増加する。
双曲的測地線距離を規則検証の正しさに用い、ノードポテンシャルを定義し、ポテンシャル差による高密度なプロセス報酬を割り当てる。
さらに、同じ共有潜在空間に軽量な値ヘッドを付加し、追加オーバーヘッドのない自己誘導テストタイムスケーリングを可能にします。
MATH-500では、Qwen2.5-Math-1.5Bを66.0%から88.2%に改善している。
AIME'24ではLaPha-1.5Bが56.7%、AIME'24ではLaPha-7Bが60.0%、AIME'25では53.3%に達する。
関連論文リスト
- Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training [0.0]
本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T10:59:24Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - BootsTAP: Bootstrapped Training for Tracking-Any-Point [62.585297341343505]
Tracking-Any-Point (TAP) は、ビデオ中の固体表面上の任意の点を追跡するアルゴリズムとして形式化することができる。
大規模でラベルなし、未修正のリアルワールドデータが、最小限のアーキテクチャ変更でTAPモデルを改善することができることを示す。
我々は,TAP-Vidベンチマークにおける最先端性能が,従来の結果よりも広いマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-01T18:38:55Z) - Tactile Grasp Refinement using Deep Reinforcement Learning and Analytic
Grasp Stability Metrics [70.65363356763598]
解析的把握安定性指標が強化学習アルゴリズムの強力な最適化目標であることを示す。
幾何的および力量に依存しないグリップ安定性の指標を組み合わせることで、カブイドの平均成功率は95.4%となることを示す。
第2の実験では,触覚情報を持たないベースラインよりも,接触フィードバックで訓練したグリップリファインメントアルゴリズムが最大6.6%向上することを示した。
論文 参考訳(メタデータ) (2021-09-23T09:20:19Z) - End-to-End Semi-Supervised Object Detection with Soft Teacher [63.26266730447914]
本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。
提案手法は, 種々のラベル付け比において, 従来手法よりも大きなマージンで性能を向上する。
最先端のSwin Transformerベースの物体検出器では、検出精度を+1.5 mAPで大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-06-16T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。