論文の概要: Task-Aware Exploration via a Predictive Bisimulation Metric
- arxiv url: http://arxiv.org/abs/2602.18724v1
- Date: Sat, 21 Feb 2026 05:30:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.265134
- Title: Task-Aware Exploration via a Predictive Bisimulation Metric
- Title(参考訳): 予測的ビシミュレーションメトリックによる課題認識探索
- Authors: Dayang Liang, Ruihan Liu, Lipeng Wan, Yunlong Liu, Bo An,
- Abstract要約: 本稿では,タスク関連表現と探索を密結合したタスク対応探索手法TEBを提案する。
具体的には、TEBは、行動基底化されたタスク表現を学習するだけでなく、学習された潜在空間上の行動固有のノベルティを測定するために、この指標を利用する。
このロバストな測定値に基づいて、潜在空間上の隣接観測の相対的新規性を測定する、ポテンシャルに基づく探索ボーナスを設計する。
- 参考スコア(独自算出の注目度): 13.445649480300132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accelerating exploration in visual reinforcement learning under sparse rewards remains challenging due to the substantial task-irrelevant variations. Despite advances in intrinsic exploration, many methods either assume access to low-dimensional states or lack task-aware exploration strategies, thereby rendering them fragile in visual domains. To bridge this gap, we present TEB, a Task-aware Exploration approach that tightly couples task-relevant representations with exploration through a predictive Bisimulation metric. Specifically, TEB leverages the metric not only to learn behaviorally grounded task representations but also to measure behaviorally intrinsic novelty over the learned latent space. To realize this, we first theoretically mitigate the representation collapse of degenerate bisimulation metrics under sparse rewards by internally introducing a simple but effective predicted reward differential. Building on this robust metric, we design potential-based exploration bonuses, which measure the relative novelty of adjacent observations over the latent space. Extensive experiments on MetaWorld and Maze2D show that TEB achieves superior exploration ability and outperforms recent baselines.
- Abstract(参考訳): 細かな報酬の下での視覚的強化学習の高速化は、タスクと無関係なばらつきのため、いまだに困難である。
固有の探索の進歩にもかかわらず、多くの手法は低次元の状態へのアクセスを前提とするか、タスク認識探索戦略を欠いているため、視覚領域では脆弱である。
このギャップを埋めるために,タスク関連表現と探索を密に結合するタスク対応探索手法であるTEBを提案する。
具体的には、TEBは、行動基底化されたタスク表現を学習するだけでなく、学習された潜在空間上の行動固有のノベルティを測定するために、この指標を利用する。
これを実現するために、我々はまず、単純だが効果的な予測された報酬差を内部的に導入することにより、スパース報酬の下での縮退バイシミュレーションメトリクスの表現崩壊を理論的に緩和する。
このロバストな計量に基づいて、潜在空間上の隣接した観測の相対的新規性を測定する、ポテンシャルに基づく探索ボーナスを設計する。
MetaWorld と Maze2D の大規模な実験により、TEB は探索能力に優れ、最近のベースラインより優れていることが示された。
関連論文リスト
- Vision to Geometry: 3D Spatial Memory for Sequential Embodied MLLM Reasoning and Exploration [12.928422281441968]
身体的なタスクは通常、エージェントが未知の環境を積極的に探索し、特定の目標を達成するためにシーンについて推論する必要がある。
実生活に配備されると、エージェントはしばしばシーケンシャルなタスクに直面し、そこでは各新しいサブタスクが前のタスクの完了に続く。
2つの古典的具体的タスクを含むSequential Embodied Exploration and Reasoning BenchmarkであるSEER-Benchを紹介する。
本研究では,3次元空間記憶推論手法である3DSPMRを提案する。
論文 参考訳(メタデータ) (2025-12-02T06:35:30Z) - Reference Grounded Skill Discovery [13.23914921356941]
本稿では,RGSD(Reference-Grounded Skill Discovery)を提案する。
RGSDは359-Dの観察と69-Dのアクションを備えたシミュレーションされたSMPLヒューマノイドで、歩行、ランニング、パンチング、サイドステップなどの構造化されたスキルを学習する。
この結果から,軽量な参照誘導接地は,高DoFシステムにおける意味豊かな構造的スキルの発見に有効な方法であることが示唆された。
論文 参考訳(メタデータ) (2025-10-07T17:55:01Z) - Unsupervised Skill Discovery through Skill Regions Differentiation [6.088346462603191]
教師なし強化学習(英語: Unsupervised Reinforcement Learning, RL)は、下流タスクの学習を加速できる多様な行動を発見することを目的としている。
本稿では,他のスキルの探索領域からの1つのスキルの状態密度のずれを最大化する新しいスキル発見目標を提案する。
また、学習したオートエンコーダに基づいて、コンパクトな潜在空間におけるカウントベースの探索に類似した本質的な報酬を定式化する。
論文 参考訳(メタデータ) (2025-06-17T11:30:04Z) - Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。
既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。
探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文 参考訳(メタデータ) (2025-03-14T06:29:47Z) - Disentangling Exploration of Large Language Models by Optimal Exploitation [17.346054308224993]
この研究は、探究を唯一の目的として分離し、エージェントに将来のリターンを高める情報収集を任せる。
我々は、最適達成可能なリターンに基づいて、不足した報酬を彼らの探索と搾取コンポーネントに分解する。
論文 参考訳(メタデータ) (2025-01-15T16:30:29Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。