論文の概要: Adapting Interleaved Encoders with PPO for Language-Guided Reinforcement Learning in BabyAI
- arxiv url: http://arxiv.org/abs/2510.23148v1
- Date: Mon, 27 Oct 2025 09:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.507194
- Title: Adapting Interleaved Encoders with PPO for Language-Guided Reinforcement Learning in BabyAI
- Title(参考訳): BabyAIにおける言語指導強化学習のためのインターリーブエンコーダのPPO対応
- Authors: Aryan Mathur, Asaduddin Ahmed,
- Abstract要約: 我々は、パーセプション・ディシジョン・インターリーブ・トランス(PDiT)アーキテクチャを実装している。
PDiTは、単一の変換器内の知覚層と決定層を交互に行う。
提案手法は,標準のPPOベースラインに比べて,より安定な報酬とアライメントを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep reinforcement learning agents often struggle when tasks require understanding both vision and language. Conventional architectures typically isolate perception (for example, CNN-based visual encoders) from decision-making (policy networks). This separation can be inefficient, since the policy's failures do not directly help the perception module learn what is important. To address this, we implement the Perception-Decision Interleaving Transformer (PDiT) architecture introduced by Mao et al. (2023), a model that alternates between perception and decision layers within a single transformer. This interleaving allows feedback from decision-making to refine perceptual features dynamically. In addition, we integrate a contrastive loss inspired by CLIP to align textual mission embeddings with visual scene features. We evaluate the PDiT encoders on the BabyAI GoToLocal environment and find that the approach achieves more stable rewards and stronger alignment compared to a standard PPO baseline. The results suggest that interleaved transformer encoders are a promising direction for developing more integrated autonomous agents.
- Abstract(参考訳): 深い強化学習エージェントは、タスクが視覚と言語の両方を理解する必要がある場合、しばしば苦労する。
従来のアーキテクチャでは、認識(例えばCNNベースのビジュアルエンコーダ)を意思決定(政治ネットワーク)から切り離すのが一般的である。
この分離は、ポリシーの失敗が認識モジュールが何が重要なのかを直接学習する助けにならないため、非効率である可能性がある。
この問題を解決するために,Mao et al (2023) が導入した知覚-決定相互変換(PDiT)アーキテクチャを実装した。
このインターリービングは、意思決定から動的に知覚的特徴を洗練するためのフィードバックを可能にする。
さらに、CLIPにインスパイアされた対照的な損失を統合して、テキストのミッション埋め込みと視覚的シーンの特徴を整合させる。
我々は,BabyAI GoToLocal環境におけるPDiTエンコーダの評価を行い,標準的なPPOベースラインと比較して,より安定した報酬とアライメントを実現することを発見した。
その結果, インターリーブ型トランスフォーマーエンコーダは, より統合された自律エージェントを開発する上で有望な方向であることが示唆された。
関連論文リスト
- Shared Neural Space: Unified Precomputed Feature Encoding for Multi-Task and Cross Domain Vision [6.3796451378950385]
本稿では,エンコーダ・デコーダ・フレームワークが視覚および撮像タスク間で機能をプリコンプリートするユニバーサルニューラル・スペースを提案する。
エンコーダは変換を意識し、一般化可能な表現を学び、複数の下流AIモジュールが同じ機能空間を共有できるようにします。
我々は、NSにおいて、復調、復調、深度推定、セマンティックセグメンテーションなどの画像および視覚モジュールを効率的に実行できることを実証した。
論文 参考訳(メタデータ) (2025-09-24T18:48:58Z) - DuoFormer: Leveraging Hierarchical Representations by Local and Global Attention Vision Transformer [1.456352735394398]
本稿では、畳み込みニューラルネットワーク(CNN)の特徴抽出機能と視覚変換器(ViT)の高度な表現可能性とを包括的に統合した新しい階層型トランスフォーマーモデルを提案する。
インダクティブバイアスの欠如と、ViTの広範囲なトレーニングデータセットへの依存に対処するため、我々のモデルはCNNバックボーンを使用して階層的な視覚表現を生成する。
これらの表現は、革新的なパッチトークン化プロセスを通じてトランスフォーマー入力に適応し、継承されたマルチスケールの帰納バイアスを保存する。
論文 参考訳(メタデータ) (2025-06-15T22:42:57Z) - Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient
Autonomous Navigation [15.501449762687148]
本稿ではゴール誘導ナビゲーションのためのゴール誘導トランスフォーマー対応強化学習(GTRL)手法を提案する。
本手法は,DRL学習プロセスのデータ効率を大幅に向上させる,主にゴール関連機能に焦点を当てたシーン表現の動機付けである。
データ効率, 性能, 堅牢性, および sim-to-real 一般化の観点から, シミュレーションと実世界の実験結果の両方が, 我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-01-01T07:14:30Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。