Fugu-MT 論文翻訳(概要): Reinforcement Learning in Hyperbolic Spaces: Models and Experiments

論文の概要: Reinforcement Learning in Hyperbolic Spaces: Models and Experiments

arxiv url: http://arxiv.org/abs/2410.09466v1
Date: Sat, 12 Oct 2024 10:01:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 14:14:38.045724
Title: Reinforcement Learning in Hyperbolic Spaces: Models and Experiments
Title（参考訳）: 双曲空間における強化学習:モデルと実験
Authors: Vladimir Jaćimović, Zinaid Kapić, Aladin Crnkić,
Abstract要約: エージェントが事前情報なしで未知の環境を探索しようとする5つの設定を考察する。一見非常に異なるように見えるが、これらは全て双曲空間における強化学習(Reinforcement Learning, RL)問題として定式化することができる。この種の問題に対処するために必要な統計モデルと力学モデルを導入し,この枠組みに基づくアルゴリズムを実装した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We examine five setups where an agent (or two agents) seeks to explore unknown environment without any prior information. Although seemingly very different, all of them can be formalized as Reinforcement Learning (RL) problems in hyperbolic spaces. More precisely, it is natural to endow the action spaces with the hyperbolic metric. We introduce statistical and dynamical models necessary for addressing problems of this kind and implement algorithms based on this framework. Throughout the paper we view RL through the lens of the black-box optimization.
Abstract（参考訳）: エージェント(または2つのエージェント)が事前情報なしで未知の環境を探索しようとする5つの設定について検討する。一見非常に異なるように見えるが、これらは全て双曲空間における強化学習(Reinforcement Learning, RL)問題として定式化することができる。より正確には、作用空間に双曲計量を与えるのは自然である。この種の問題に対処するために必要な統計モデルと力学モデルを導入し,この枠組みに基づくアルゴリズムを実装した。論文全体を通して、我々はブラックボックス最適化のレンズを通してRLを見る。

関連論文リスト

From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。 S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文参考訳（メタデータ） (2025-07-29T17:26:10Z)
Maximizing Confidence Alone Improves Reasoning [48.83927980325788]
RENT: エントロピー最小化による強化学習(Reinforcement Learning via Entropy Minimization)は、完全な教師なしのRL手法であり、外部の報酬や地道的な回答を必要としない。得られた回答に高いモデル信頼をもたらす思考の連鎖を強化することで、モデルは推論能力を向上させる。
論文参考訳（メタデータ） (2025-05-28T17:59:37Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文参考訳（メタデータ） (2025-04-10T17:15:53Z)
ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-10-28T05:29:38Z)
A Practitioner's Guide to Continual Multimodal Pretraining [83.63894495064855]
マルチモーダル・ファンデーション・モデルは視覚と言語を交わす多くのアプリケーションに役立っている。モデルを更新し続けるために、継続事前トレーニングの研究は主に、大規模な新しいデータに対する頻度の低い、差別的な更新、あるいは頻繁に行われるサンプルレベルの更新のシナリオを探求する。本稿では,FoMo-in-Flux(FoMo-in-Flux)について紹介する。
論文参考訳（メタデータ） (2024-08-26T17:59:01Z)
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文参考訳（メタデータ） (2024-05-03T12:21:43Z)
Hyperbolic Representation Learning: Revisiting and Advancing [43.1661098138936]
本稿では,現在普及しているhlmを精査する位置追跡機構を導入し,学習された表現が準最適で不満足であることを明らかにする。本稿では,ノードの双曲的距離から推定されるコストフリーな階層的情報を原点に組み込むことにより,シンプルで効果的な情報埋め込み手法であるハイボリックインフォメーション(HIE)を提案する。提案手法は, 競合するベースラインに比べて最大21.4%向上した。
論文参考訳（メタデータ） (2023-06-15T13:25:39Z)
Adaptive action supervision in reinforcement learning from real-world multi-agent demonstrations [10.174009792409928]
マルチエージェントシナリオにおける実世界の実演からRLにおける適応的行動監視手法を提案する。実験では,未知のソースとターゲット環境の異なるダイナミックスを用いて,チェイス・アンド・エスケープとフットボールのタスクを用いて,本手法がベースラインと比較して一般化能力と一般化能力のバランスを保っていることを示す。
論文参考訳（メタデータ） (2023-05-22T13:33:37Z)
Agent-Controller Representations: Principled Offline RL with Rich Exogenous Information [49.06422815335159]
オフラインで収集したデータからエージェントを制御する学習は、実世界の強化学習(RL)の応用にとって不可欠である本稿では,この問題を研究可能なオフラインRLベンチマークを提案する。現代の表現学習技術は、ノイズが複雑で時間依存のプロセスであるデータセットで失敗する可能性がある。
論文参考訳（メタデータ） (2022-10-31T22:12:48Z)
Just Round: Quantized Observation Spaces Enable Memory Efficient Learning of Dynamic Locomotion [0.7106986689736827]
深層強化学習モデルのトレーニングは計算とメモリ集約である。観測空間の量子化は、学習性能に影響を与えることなく、全体のメモリコストを4.2倍に削減する。
論文参考訳（メタデータ） (2022-10-14T19:14:47Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文参考訳（メタデータ） (2021-09-27T12:42:05Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。