論文の概要: Meta-Referential Games to Learn Compositional Learning Behaviours
- arxiv url: http://arxiv.org/abs/2207.08012v1
- Date: Sat, 16 Jul 2022 20:37:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 15:08:35.411967
- Title: Meta-Referential Games to Learn Compositional Learning Behaviours
- Title(参考訳): 作曲学習行動学習のためのメタレファレンシャルゲーム
- Authors: Kevin Denamgana\"i, Sondess Missaoui, and James Alfred Walker
- Abstract要約: 構成学習行動(CLB)の学習における中心的な問題は、結合問題(BP)の解決である。
本稿では,BPのドメインに依存しないバージョンを解くことにより,CLBを提示するエージェントの能力を調べるベンチマークを提案する。
提案したベンチマークは魅力的な課題であり、研究コミュニティがより有能な人工エージェントを開発するよう促すことを願っている。
- 参考スコア(独自算出の注目度): 0.11470070927586014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human beings use compositionality to generalise from past experiences to
actual or fictive, novel experiences. To do so, we separate our experiences
into fundamental atomic components. These atomic components can then be
recombined in novel ways to support our ability to imagine and engage with
novel experiences. We frame this as the ability to learn to generalise
compositionally. And, we will refer to behaviours making use of this ability as
compositional learning behaviours (CLBs).
A central problem to learning CLBs is the resolution of a binding problem
(BP) (by learning to, firstly, segregate the supportive stimulus components
from the observation of multiple stimuli, and then, combine them in a single
episodic experience). While it is another feat of intelligence that human
beings perform with ease, it is not the case for state-of-the-art artificial
agents.
Thus, in order to build artificial agents able to collaborate with human
beings, we propose to develop a novel benchmark to investigate agents'
abilities to exhibit CLBs by solving a domain-agnostic version of the BP. We
take inspiration from the language emergence and grounding framework of
referential games and propose a meta-learning extension of referential games,
entitled Meta-Referential Games, and use this framework to build our benchmark,
that we name Symbolic Behaviour Benchmark (S2B).
While it has the potential to test for more symbolic behaviours, rather than
solely CLBs, in the present paper, though, we solely focus on the single-agent
language grounding task that tests for CLBs. We provide baseline results for
it, using state-of-the-art RL agents, and show that our proposed benchmark is a
compelling challenge that we hope will spur the research community towards
developing more capable artificial agents.
- Abstract(参考訳): 人間は構成性を利用して、過去の経験から現実的または現実的な新しい経験へと一般化する。
そのため、私たちは経験を基本的な原子部品に分けています。
これらの原子部品を新しい方法で組み換えることで、新しい体験を想像し、関与する能力を支援することができます。
私たちはこれを、作曲を一般化する能力と捉えています。
また、この能力を構成学習行動(clb)として利用する行動についても言及する。
CLBの学習における中心的な問題は、結合問題(BP)の解決である(まず、複数の刺激の観察から支持刺激成分を分離し、1つのエピソード的な経験で組み合わせることを学ぶ)。
人間は容易に行動できるという別の知能の偉業であるが、最先端の人工エージェントには当てはまらない。
そこで我々は,人間と協調できる人工エージェントを構築するために,BPのドメインに依存しないバージョンを解くことにより,CLBを展示するエージェントの能力を調べる新しいベンチマークを開発することを提案する。
我々は,参照ゲームの言語台頭と基盤フレームワークからインスピレーションを得て,メタ参照ゲーム(Meta-Referential Games)というメタラーニングゲームの拡張を提案し,このフレームワークを用いてベンチマークを構築し,シンボリックビヘイビアベンチマーク(S2B)と名付ける。
しかし本論文では,単にCLBではなく,より象徴的な動作をテストすることができるが,本論文では,CLBをテストする単一エージェント言語基盤タスクにのみ焦点をあてる。
我々は最先端のrlエージェントを用いて、そのベースラインとなる結果を提供し、提案するベンチマークが研究コミュニティがより有能な人工エージェントを開発するための魅力的な課題であることを示す。
関連論文リスト
- EXPLORER: Exploration-guided Reasoning for Textual Reinforcement Learning [23.83162741035859]
テキスト強化学習のための探索誘導推論剤であるEXPLORERについて述べる。
実験の結果,EXPLORERはテキストワールド調理(TW-Cooking)およびテキストワールドコモンセンス(TWC)ゲームにおいて,ベースラインエージェントよりも優れていた。
論文 参考訳(メタデータ) (2024-03-15T21:22:37Z) - In-Memory Learning: A Declarative Learning Framework for Large Language
Models [56.62616975119192]
本研究では,人間ラベルデータに頼らずにエージェントが環境に整合できる新しい学習フレームワークを提案する。
このプロセス全体がメモリコンポーネント内で変換され、自然言語で実装される。
フレームワークの有効性を実証し、この問題に対する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-05T08:25:11Z) - Towards A Unified Agent with Foundation Models [18.558328028366816]
強化学習(RL)エージェントにそのような能力を組み込んで活用する方法を検討する。
我々は、言語を中核的推論ツールとして使用するフレームワークを設計し、エージェントが一連の基本的なRL課題にどのように取り組むことができるかを探る。
探索効率とオフラインデータセットからのデータの再利用能力において,ベースラインよりも大幅にパフォーマンスが向上したことを示す。
論文 参考訳(メタデータ) (2023-07-18T22:37:30Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Inherently Explainable Reinforcement Learning in Natural Language [14.117921448623342]
本稿では,本質的に説明可能な強化学習エージェントの開発に焦点をあてる。
この階層的説明可能な強化学習エージェントは、インタラクティブフィクション、テキストベースのゲーム環境で動作する。
私たちのエージェントは、説明責任を第一級市民として扱うように設計されています。
論文 参考訳(メタデータ) (2021-12-16T14:24:35Z) - Alchemy: A structured task distribution for meta-reinforcement learning [52.75769317355963]
本稿では,構造的リッチネスと構造的透明性を組み合わせたメタRL研究のための新しいベンチマークを提案する。
Alchemyは3Dビデオゲームで、エピソードからエピソードまで手続き的に再サンプリングされる潜伏した因果構造を含んでいる。
本稿では,アルケミーの強力なRL剤について検討し,その1つについて詳細な分析を行った。
論文 参考訳(メタデータ) (2021-02-04T23:40:44Z) - Deep Reinforcement Learning with Stacked Hierarchical Attention for
Text-based Games [64.11746320061965]
自然言語の文脈におけるインタラクティブなシミュレーションであるテキストベースゲームの強化学習について検討する。
エージェントの動作が解釈可能な推論手順によって生成され、支援されるように、意思決定のための知識グラフを用いた明示的な推論を行うことを目指している。
提案手法を多数の人為的ベンチマークゲームで広範囲に評価し,本手法が既存のテキストベースエージェントよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2020-10-22T12:40:22Z) - Text-based RL Agents with Commonsense Knowledge: New Challenges,
Environments and Baselines [40.03754436370682]
テキストワールド・コモンセンスにコモンセンスの知識を取り入れたエージェントは,より効率的に行動しながら,より優れた行動を示す。
我々は,TWC上での人的パフォーマンスを推定するユーザスタディを実施し,今後の改善の余地が十分にあることを示す。
論文 参考訳(メタデータ) (2020-10-08T06:20:00Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。