論文の概要: LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.17125v3
- Date: Wed, 26 Mar 2025 08:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:18:02.774514
- Title: LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning
- Title(参考訳): LaMOuR:強化学習におけるアウト・オブ・ディストリビューション・リカバリのための言語モデル
- Authors: Chan Kim, Seung-Woo Seo, Seong-Woo Kim,
- Abstract要約: 本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 16.093659272414527
- License:
- Abstract: Deep Reinforcement Learning (DRL) has demonstrated strong performance in robotic control but remains susceptible to out-of-distribution (OOD) states, often resulting in unreliable actions and task failure. While previous methods have focused on minimizing or preventing OOD occurrences, they largely neglect recovery once an agent encounters such states. Although the latest research has attempted to address this by guiding agents back to in-distribution states, their reliance on uncertainty estimation hinders scalability in complex environments. To overcome this limitation, we introduce Language Models for Out-of-Distribution Recovery (LaMOuR), which enables recovery learning without relying on uncertainty estimation. LaMOuR generates dense reward codes that guide the agent back to a state where it can successfully perform its original task, leveraging the capabilities of LVLMs in image description, logical reasoning, and code generation. Experimental results show that LaMOuR substantially enhances recovery efficiency across diverse locomotion tasks and even generalizes effectively to complex environments, including humanoid locomotion and mobile manipulation, where existing methods struggle. The code and supplementary materials are available at https://lamour-rl.github.io/.
- Abstract(参考訳): 深層強化学習(DRL)は、ロボット制御において強い性能を示してきたが、アウト・オブ・ディストリビューション(OOD)状態の影響を受けにくいままであり、しばしば信頼できない行動やタスクの失敗をもたらす。
従来の方法では、OODの発生を最小化または防止することに注力していたが、エージェントがそのような状態に遭遇すると、回復はほとんど無視される。
最新の研究はエージェントを分散状態に戻すことによってこの問題に対処しようとしているが、不確実性推定への依存は複雑な環境におけるスケーラビリティを妨げている。
この制限を克服するために、不確実性推定に頼ることなく回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を導入する。
LaMOuRは、イメージ記述、論理的推論、コード生成におけるLVLMの機能を活用することで、エージェントを元のタスクをうまく実行できる状態に戻すための高密度な報酬コードを生成する。
実験結果から,LaMOuRは多様な移動課題における回復効率を大幅に向上させ,既存の手法が苦戦しているヒューマノイド移動や移動操作を含む複雑な環境に効果的に一般化することが示された。
コードと補足資料はhttps://lamour-rl.github.io/.com/で公開されている。
関連論文リスト
- Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Retrievals Can Be Detrimental: A Contrastive Backdoor Attack Paradigm on Retrieval-Augmented Diffusion Models [37.66349948811172]
拡散モデル (DM) は近年, 顕著な生成能力を示した。
近年の研究では、高度な検索・拡張生成(RAG)技術によってDMが強化されている。
RAGは、モデルパラメータを著しく低減しつつ、DMの生成と一般化能力を向上させる。
大きな成功にもかかわらず、RAGはさらなる調査を保証できる新しいセキュリティ問題を導入するかもしれない。
論文 参考訳(メタデータ) (2025-01-23T02:42:28Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Recover: A Neuro-Symbolic Framework for Failure Detection and Recovery [2.0554045007430672]
本稿では,オンライン障害識別と回復のためのニューロシンボリック・フレームワークであるRecoverを紹介する。
論理ルールとLLMベースのプランナを統合することで、Recoverはシンボル情報を利用してLLMの回復計画を生成する能力を高める。
論文 参考訳(メタデータ) (2024-03-31T17:54:22Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。