論文の概要: Temporal Representations for Exploration: Learning Complex Exploratory Behavior without Extrinsic Rewards
- arxiv url: http://arxiv.org/abs/2603.02008v1
- Date: Mon, 02 Mar 2026 15:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.951317
- Title: Temporal Representations for Exploration: Learning Complex Exploratory Behavior without Extrinsic Rewards
- Title(参考訳): 探索のための時間的表現:非本能的逆境を伴わない複雑な探索行動の学習
- Authors: Faisal Mohamed, Catherine Ji, Benjamin Eysenbach, Glen Berseth,
- Abstract要約: 本研究では,時間的コントラスト表現を利用して探索をガイドする探索手法を提案する。
このような表現は, 移動, 操作, 組込みAIタスクにおいて, 複雑な探索 x の学習を可能にすることを実証する。
- 参考スコア(独自算出の注目度): 39.328230174948025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective exploration in reinforcement learning requires not only tracking where an agent has been, but also understanding how the agent perceives and represents the world. To learn powerful representations, an agent should actively explore states that contribute to its knowledge of the environment. Temporal representations can capture the information necessary to solve a wide range of potential tasks while avoiding the computational cost associated with full state reconstruction. In this paper, we propose an exploration method that leverages temporal contrastive representations to guide exploration, prioritizing states with unpredictable future outcomes. We demonstrate that such representations can enable the learning of complex exploratory x in locomotion, manipulation, and embodied-AI tasks, revealing capabilities and behaviors that traditionally require extrinsic rewards. Unlike approaches that rely on explicit distance learning or episodic memory mechanisms (e.g., quasimetric-based methods), our method builds directly on temporal similarities, yielding a simpler yet effective strategy for exploration.
- Abstract(参考訳): 強化学習における効果的な探索は、エージェントがどこにいるかを追跡するだけでなく、エージェントがどのように世界を知覚し、表現しているかを理解する必要がある。
エージェントは、強力な表現を学ぶためには、その環境に関する知識に寄与する状態を積極的に探求する必要がある。
時間表現は、完全な状態再構成に関連する計算コストを回避しながら、幅広い潜在的なタスクを解決するために必要な情報をキャプチャすることができる。
本稿では,時間的コントラスト表現を利用して探索をガイドし,予測不可能な将来性のある状態を優先する探索手法を提案する。
このような表現は、移動、操作、具体化AIタスクにおける複雑な探索 x の学習を可能にし、伝統的に外因性報酬を必要とする能力や行動を明らかにする。
明示的な距離学習やエピソード記憶機構(例えば、準距離法)に依存する手法とは異なり、本手法は時間的類似性に基づいて構築され、よりシンプルで効果的な探索戦略をもたらす。
関連論文リスト
- Curriculum-Based Multi-Tier Semantic Exploration via Deep Reinforcement Learning [1.8374319565577155]
本稿では,資源効率の良い意味探索を目的とした新しいDeep Reinforcement Learningアーキテクチャを提案する。
重要な方法論的貢献は、層状報酬関数によるビジョンランゲージモデル(VLM)の共通センスの統合である。
本研究では,本エージェントがオブジェクト発見率を大幅に向上し,セマンティックにリッチな領域へ効果的にナビゲートする学習能力を開発したことを示す。
論文 参考訳(メタデータ) (2025-09-11T11:10:08Z) - Maximum State Entropy Exploration using Predecessor and Successor
Representations [17.732962106114478]
動物は、食物の配置などの重要なタスクにおいて、動物を探索する能力が発達している。
本稿では,過去の叙述的経験を条件に,効率的な探索政策を学習する手法である$etapsi$-Learningを提案する。
論文 参考訳(メタデータ) (2023-06-26T16:08:26Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Embodied Learning for Lifelong Visual Perception [33.02424587900808]
我々は、新しいモデルを開発し、建物内を航行する様々なエージェントを比較し、生涯の視覚知覚を具体化して研究する。
エージェントの目的は、探索とアクティブな視覚学習を組み合わせたプロセスの最後に、建物全体のオブジェクトやその他のセマンティッククラスを認識することである。
論文 参考訳(メタデータ) (2021-12-28T10:47:13Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - A Survey of Exploration Methods in Reinforcement Learning [64.01676570654234]
強化学習エージェントは、学習プロセスのための情報データを得るために、探索に極めて依存する。
本稿では,(逐次的)強化学習における近代的な探究手法の調査と,探索手法の分類について述べる。
論文 参考訳(メタデータ) (2021-09-01T02:36:14Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。