論文の概要: Compositional Learning of Visually-Grounded Concepts Using Reinforcement
- arxiv url: http://arxiv.org/abs/2309.04504v2
- Date: Fri, 3 May 2024 07:21:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:06:46.069558
- Title: Compositional Learning of Visually-Grounded Concepts Using Reinforcement
- Title(参考訳): 強化を用いた視覚領域概念の合成学習
- Authors: Zijun Lin, Haidi Azaman, M Ganesh Kumar, Cheston Tan,
- Abstract要約: 子どもたちは、構成的に構築されたルールを素早く一般化して、目に見えないテストセットにすることができる。
深層強化学習(英語版) (RL) エージェントは数百万のエピソードで訓練される必要がある。
RLのエージェントが、色と形の組み合わせを標的にナビゲートするようにナビゲートされるとき、彼らは暗黙的に組み合わせを分解することを学ぶ。
- 参考スコア(独自算出の注目度): 5.9143643136818085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children can rapidly generalize compositionally-constructed rules to unseen test sets. On the other hand, deep reinforcement learning (RL) agents need to be trained over millions of episodes, and their ability to generalize to unseen combinations remains unclear. Hence, we investigate the compositional abilities of RL agents, using the task of navigating to specified color-shape targets in synthetic 3D environments. First, we show that when RL agents are naively trained to navigate to target color-shape combinations, they implicitly learn to decompose the combinations, allowing them to (re-)compose these and succeed at held-out test combinations ("compositional learning"). Second, when agents are pretrained to learn invariant shape and color concepts ("concept learning"), the number of episodes subsequently needed for compositional learning decreased by 20 times. Furthermore, only agents trained on both concept and compositional learning could solve a more complex, out-of-distribution environment in zero-shot fashion. Finally, we verified that only text encoders pretrained on image-text datasets (e.g. CLIP) reduced the number of training episodes needed for our agents to demonstrate compositional learning, and also generalized to 5 unseen colors in zero-shot fashion. Overall, our results are the first to demonstrate that RL agents can be trained to implicitly learn concepts and compositionality, to solve more complex environments in zero-shot fashion.
- Abstract(参考訳): 子どもたちは、構成的に構築されたルールを素早く一般化して、目に見えないテストセットにすることができる。
一方, 深層強化学習(RL)エージェントは, 数百万エピソードにわたって訓練される必要があり, 未知の組み合わせに一般化する能力はいまだ不明である。
そこで, 合成3次元環境において, 特定色形状目標へのナビゲートを施したRLエージェントの合成能力について検討した。
まず、RLエージェントが、色と形の組み合わせを標的にナビゲートするように鼻で訓練された場合、彼らは暗黙的に組み合わせを分解し、これらを(再)分解し、保留テストの組み合わせで成功させる("compositional learning")。
第2に, エージェントが不変形状や色の概念(概念学習)を学習するように事前訓練された場合, 構成学習に必要なエピソードの数は20倍に減少した。
さらに、概念と構成学習の両方で訓練されたエージェントだけが、ゼロショット方式でより複雑でアウト・オブ・ディストリビューション環境を解決できた。
最後に、画像テキストデータセット(例えばCLIP)で事前訓練されたテキストエンコーダのみが、構成学習に必要なトレーニングエピソード数を減らし、ゼロショット方式で5色に一般化したことを確認した。
その結果、RLエージェントが暗黙的に概念や構成性を学習し、ゼロショット方式でより複雑な環境を解けることを初めて実証した。
関連論文リスト
- Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Collaboration of Pre-trained Models Makes Better Few-shot Learner [49.89134194181042]
少ないショット分類では、限られた訓練画像からのみ、一般化された表現を学習するために、ディープニューラルネットワークが必要である。
最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。
我々は,様々な事前学習パラダイムから様々な事前知識を取り入れた事前学習モデルのコラボレーションであるCoMoを提案する。
論文 参考訳(メタデータ) (2022-09-25T16:23:12Z) - Reference-Limited Compositional Zero-Shot Learning [19.10692212692771]
合成ゼロショット学習(CZSL)は、既知の視覚的プリミティブの未知の合成を認識することを指す。
本稿では,メタコンポジショングラフ学習システム(MetaCGL)を提案する。
論文 参考訳(メタデータ) (2022-08-22T03:58:02Z) - Modular Lifelong Reinforcement Learning via Neural Composition [31.561979764372886]
人間は通常、それらをより簡単なサブプロブレムに分解し、サブプロブレムの解を組み合わせることで複雑な問題を解く。
このタイプの構成推論は、基礎となる構成構造の一部を共有する将来のタスクに取り組む際に、サブプロブレム解の再利用を可能にする。
連続的または生涯にわたる強化学習(RL)では、この知識を再利用可能なコンポーネントに分解する能力により、エージェントは新しいRLタスクを迅速に学習することができる。
論文 参考訳(メタデータ) (2022-07-01T13:48:29Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Meta-Learning to Compositionally Generalize [34.656819307701156]
教師あり学習のメタラーニング拡張版を実装した。
既存のトレーニングデータをサブサンプリングすることでメタ学習のためのタスクのペアを構築する。
COGSおよびSCANデータセットの実験結果から、類似性駆動型メタラーニングにより一般化性能が向上することが示された。
論文 参考訳(メタデータ) (2021-06-08T11:21:48Z) - Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then
Training It Toughly [114.81028176850404]
限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。
データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する。
このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中することができます。
論文 参考訳(メタデータ) (2021-02-28T05:20:29Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - Compositional Generalization by Learning Analytical Expressions [87.15737632096378]
メモリ拡張ニューラルモデルは、合成一般化を達成するために解析式に接続される。
良く知られたベンチマークSCANの実験は、我々のモデルが構成的一般化の優れた能力をつかむことを示した。
論文 参考訳(メタデータ) (2020-06-18T15:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。