論文の概要: Autonomous Learning From Success and Failure: Goal-Conditioned Supervised Learning with Negative Feedback
- arxiv url: http://arxiv.org/abs/2509.03206v1
- Date: Wed, 03 Sep 2025 10:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.489517
- Title: Autonomous Learning From Success and Failure: Goal-Conditioned Supervised Learning with Negative Feedback
- Title(参考訳): 成功と失敗からの自律的な学習 - 否定的なフィードバックによる目標設定型指導型学習
- Authors: Zeqiang Zhang, Fabian Wurzberger, Gerrit Schmid, Sebastian Gottwald, Daniel A. Braun,
- Abstract要約: Goal-Conditioned Supervised Learningは、自律システムのための自己アニメーション学習を可能にする、潜在的なソリューションとして登場した。
本稿では,GCSLフレームワークに対照的な学習原則を統合し,成功と失敗の両方から学ぶ新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 2.36462256498849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning faces significant challenges when applied to tasks characterized by sparse reward structures. Although imitation learning, within the domain of supervised learning, offers faster convergence, it relies heavily on human-generated demonstrations. Recently, Goal-Conditioned Supervised Learning (GCSL) has emerged as a potential solution by enabling self-imitation learning for autonomous systems. By strategically relabelling goals, agents can derive policy insights from their own experiences. Despite the successes of this framework, it presents two notable limitations: (1) Learning exclusively from self-generated experiences can exacerbate the agents' inherent biases; (2) The relabelling strategy allows agents to focus solely on successful outcomes, precluding them from learning from their mistakes. To address these issues, we propose a novel model that integrates contrastive learning principles into the GCSL framework to learn from both success and failure. Through empirical evaluations, we demonstrate that our algorithm overcomes limitations imposed by agents' initial biases and thereby enables more exploratory behavior. This facilitates the identification and adoption of effective policies, leading to superior performance across a variety of challenging environments.
- Abstract(参考訳): 強化学習は、スパース報酬構造を特徴とするタスクに適用する場合、重大な課題に直面します。
模倣学習は、教師付き学習の領域内において、より高速な収束を提供するが、それは人為的な実演に大きく依存している。
近年,自律システムのための自己刺激学習を実現することで,GCSL(Goal-Conditioned Supervised Learning)が潜在的なソリューションとして浮上している。
戦略的に目標を遅延させることで、エージェントは自身の経験から政策の洞察を導き出すことができる。
この枠組みの成功にもかかわらず、(1)自己生成経験のみから学ぶことは、エージェント固有のバイアスを悪化させる可能性がある、(2)反抗戦略は、エージェントが失敗から学ぶことを排除し、成功した結果にのみ焦点を絞ることができる、という2つの注目すべき制限を提示する。
これらの課題に対処するため、我々は、GCSLフレームワークに対照的な学習原則を統合し、成功と失敗の両方から学習する新しいモデルを提案する。
実験的な評価を通じて,エージェントの初期バイアスによる制約を克服し,より探索的な行動を可能にすることを示す。
これにより、効果的なポリシの識別と採用が促進され、さまざまな課題のある環境においてパフォーマンスが向上する。
関連論文リスト
- Learning from Demonstrations via Capability-Aware Goal Sampling [12.442790487354742]
Cago(カゴ)は、専門家の軌道への不安定な依存を軽減し、直接の模倣を行うための学習から学ぶ方法である。
Cagoはスパース・リワード・ゴール条件付きタスクの範囲で,サンプル効率と最終性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-01-13T17:03:31Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Enhancing Q-Learning with Large Language Model Heuristics [0.0]
大規模言語モデル(LLM)は、単純なタスクでゼロショット学習を達成できるが、推論速度の低下と時折幻覚に悩まされる。
我々は,LLMを幻覚として活用し,強化学習のためのQ関数の学習を支援するフレームワークであるtextbfLLM-guided Q-learningを提案する。
論文 参考訳(メタデータ) (2024-05-06T10:42:28Z) - Imitating Past Successes can be Very Suboptimal [145.70788608016755]
既存の結果条件付き模倣学習手法が必ずしもポリシーを改善できないことを示す。
簡単な修正が、政策改善を保証する方法をもたらすことを示す。
我々の目的は、全く新しい方法を開発するのではなく、成果条件付き模倣学習の変種が報酬を最大化するためにどのように使用できるかを説明することである。
論文 参考訳(メタデータ) (2022-06-07T15:13:43Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。