論文の概要: CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives
- arxiv url: http://arxiv.org/abs/2411.19787v1
- Date: Fri, 29 Nov 2024 15:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:01.872143
- Title: CAREL: Instruction-guided reinforcement learning with cross-modal auxiliary objectives
- Title(参考訳): CAREL:クロスモーダル補助目標を用いた指導指導指導強化学習
- Authors: Armin Saghafian, Amirmohammad Izadi, Negin Hashemi Dijujin, Mahdieh Soleymani Baghshah,
- Abstract要約: 言語指導による目標達成型強化学習の課題を解決するための重要なステップである。
本稿では,ビデオテキスト検索文にヒントを得た補助的損失関数を用いた新たなフレームワークとしてCARELを提案する。
実験の結果,マルチモーダル強化学習問題において,本フレームワークのより優れたサンプル効率と系統的な一般化が示唆された。
- 参考スコア(独自算出の注目度): 2.4392539322920763
- License:
- Abstract: Grounding the instruction in the environment is a key step in solving language-guided goal-reaching reinforcement learning problems. In automated reinforcement learning, a key concern is to enhance the model's ability to generalize across various tasks and environments. In goal-reaching scenarios, the agent must comprehend the different parts of the instructions within the environmental context in order to complete the overall task successfully. In this work, we propose CAREL (Cross-modal Auxiliary REinforcement Learning) as a new framework to solve this problem using auxiliary loss functions inspired by video-text retrieval literature and a novel method called instruction tracking, which automatically keeps track of progress in an environment. The results of our experiments suggest superior sample efficiency and systematic generalization for this framework in multi-modal reinforcement learning problems. Our code base is available here.
- Abstract(参考訳): 言語指導による目標達成型強化学習の課題を解決するための重要なステップである。
自動強化学習において重要な関心事は、様々なタスクや環境にまたがってモデルを一般化する能力を強化することである。
目標達成シナリオでは、エージェントは、タスク全体の完了を成功させるために、環境コンテキスト内の命令の異なる部分を理解する必要がある。
本研究では,CAREL(Cross-modal Auxiliary Reinforcement Learning)を新たなフレームワークとして,映像テキスト検索文にヒントを得た補助的損失関数と,環境の進行を自動的に追跡する命令追跡という手法を提案する。
実験の結果,多モード強化学習問題において,本フレームワークのより優れたサンプル効率と系統的な一般化が示唆された。
私たちのコードベースはこちらで利用可能です。
関連論文リスト
- ARCLE: The Abstraction and Reasoning Corpus Learning Environment for Reinforcement Learning [9.134178145285693]
ARCLEは、帰納的推論ベンチマークに関する強化学習研究を促進するために設計された環境である。
我々は、近ポリシー最適化エージェントがARCLEを通して個別のタスクを学習できることを実証する。
我々は、MAML、GFlowNets、World Modelsなど、ARCLEを使用するためのいくつかの研究の方向性とモチベーションを提案する。
論文 参考訳(メタデータ) (2024-07-30T13:11:45Z) - Exploiting Contextual Structure to Generate Useful Auxiliary Tasks [12.236546713167945]
強化学習はロボットにとって高価な環境との相互作用を必要とする。
本稿では,有用な補助タスクを生成し,同時に学習することで,与えられたタスクを学習しながら経験再利用を最大化する手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T05:11:30Z) - Hierarchically Structured Task-Agnostic Continual Learning [0.0]
本研究では,連続学習のタスク非依存的な視点を取り入れ,階層的情報理論の最適性原理を考案する。
我々は,情報処理経路の集合を作成することで,忘れを緩和する,Mixture-of-Variational-Experts層と呼ばれるニューラルネットワーク層を提案する。
既存の連続学習アルゴリズムのようにタスク固有の知識を必要としない。
論文 参考訳(メタデータ) (2022-11-14T19:53:15Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - AANG: Automating Auxiliary Learning [110.36191309793135]
補助目的の集合を自動生成する手法を提案する。
我々は、新しい統合分類体系の中で既存の目的を分解し、それらの関係を識別し、発見された構造に基づいて新しい目的を創出することで、これを実現する。
これにより、生成された目的物の空間を探索し、指定されたエンドタスクに最も有用なものを見つけるための、原理的かつ効率的なアルゴリズムが導かれる。
論文 参考訳(メタデータ) (2022-05-27T16:32:28Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。