論文の概要: An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games
- arxiv url: http://arxiv.org/abs/2102.00424v1
- Date: Sun, 31 Jan 2021 10:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:56:58.844268
- Title: An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games
- Title(参考訳): 視覚投射ゲームで学習した神経表現の一般化力に関する実証的研究
- Authors: Alessandro Suglia, Yonatan Bisk, Ioannis Konstas, Antonio Vergari,
Emanuele Bastianelli, Andrea Vanzo, Oliver Lemon
- Abstract要約: 本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
- 参考スコア(独自算出の注目度): 79.23847247132345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guessing games are a prototypical instance of the "learning by interacting"
paradigm. This work investigates how well an artificial agent can benefit from
playing guessing games when later asked to perform on novel NLP downstream
tasks such as Visual Question Answering (VQA). We propose two ways to exploit
playing guessing games: 1) a supervised learning scenario in which the agent
learns to mimic successful guessing games and 2) a novel way for an agent to
play by itself, called Self-play via Iterated Experience Learning (SPIEL).
We evaluate the ability of both procedures to generalize: an in-domain
evaluation shows an increased accuracy (+7.79) compared with competitors on the
evaluation suite CompGuessWhat?!; a transfer evaluation shows improved
performance for VQA on the TDIUC dataset in terms of harmonic average accuracy
(+5.31) thanks to more fine-grained object representations learned via SPIEL.
- Abstract(参考訳): 推論ゲームは「相互作用による学習」パラダイムの原型的例である。
本研究では,視覚的質問応答 (VQA) のような新しい NLP 下流タスクの実行を後から求めた場合,人工エージェントが推測ゲームを行うことのメリットについて検討する。
1) エージェントが成功した推測ゲームを模倣することを学ぶ教師付き学習シナリオと2) エージェントが単独でプレイする新しい方法、すなわち反復体験学習(SPIEL)という2つの方法を提案する。
ドメイン内の評価は、評価スイートCompGuessWhatの競合他社と比較して、精度の向上(+7.79)を示しています。
転送評価は、SPIELで学習したよりきめ細かいオブジェクト表現のおかげで、TDIUCデータセット上のVQAの性能を高調波平均精度(+5.31)で向上させる。
関連論文リスト
- Preference-conditioned Pixel-based AI Agent For Game Testing [1.5059676044537105]
環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を軽減する可能性がある。
本稿では,ユーザの好みに応じて設定された環境を探索しながら,主に画素ベースの状態観測に依存するエージェント設計を提案する。
実AAAゲームにおける多くの側面に類似した複雑なオープンワールド環境において、調査対象とテスト実行品質に対して、我々のエージェントは、最先端の画素ベースのゲームテストエージェントよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-08-18T04:19:36Z) - Scaling Laws for Imitation Learning in Single-Agent Games [29.941613597833133]
我々は,モデルとデータサイズを慎重にスケールアップすることで,シングルエージェントゲームにおける模倣学習環境に類似した改善がもたらされるかどうかを検討する。
われわれはまずAtariのさまざまなゲームについて実験を行い、その後NetHackの非常に挑戦的なゲームに焦点を当てた。
IL損失と平均戻り値は計算予算とスムーズに一致し,相関関係が強く,計算最適ILエージェントの訓練には電力法則が適用されることがわかった。
論文 参考訳(メタデータ) (2023-07-18T16:43:03Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning [4.698846136465861]
我々はテキストベースの環境にソフト・アクター・クリティック(SAC)アルゴリズムを適用する。
報酬形成技術は、エージェントがポリシーをより早く学習し、より高いスコアを得るのに役立つことを示す。
論文 参考訳(メタデータ) (2023-02-21T15:16:12Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Approximate exploitability: Learning a best response in large games [31.066412349285994]
我々は,エージェントに対する最良の応答を学習するための,スケーラブルな検索ベース深層強化学習アルゴリズムISMCTS-BRを紹介する。
本手法は,複数のエージェントに対する2プレイヤーゼロサムゲームにおいて実演する。
論文 参考訳(メタデータ) (2020-04-20T23:36:40Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Disentangling Controllable Object through Video Prediction Improves
Visual Reinforcement Learning [82.25034245150582]
多くの視覚に基づく強化学習問題において、エージェントは視野内の可動物体を制御する。
制御可能なオブジェクトを観測信号から切り離すためのエンドツーエンド学習フレームワークを提案する。
不整合表現は、RLがエージェントに追加の観察チャネルとして有用であることが示されている。
論文 参考訳(メタデータ) (2020-02-21T05:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。