論文の概要: Eye of the Beholder: Improved Relation Generalization for Text-based
Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2106.05387v1
- Date: Wed, 9 Jun 2021 21:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-11 14:38:26.977489
- Title: Eye of the Beholder: Improved Relation Generalization for Text-based
Reinforcement Learning Agents
- Title(参考訳): 利害関係者の目:テキスト型強化学習エージェントにおける関係一般化の改善
- Authors: Keerthiram Murugesan, Subhajit Chaudhury, Kartik Talamadupula
- Abstract要約: 我々は、これらの同じ世界の視覚的表現から学ばないことを示す。
これにより、エージェントはゲームのシーンと周囲の世界との関係について全体の理解を深める。
- 参考スコア(独自算出の注目度): 15.010549398834378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based games (TBGs) have become a popular proving ground for the
demonstration of learning-based agents that make decisions in quasi real-world
settings. The crux of the problem for a reinforcement learning agent in such
TBGs is identifying the objects in the world, and those objects' relations with
that world. While the recent use of text-based resources for increasing an
agent's knowledge and improving its generalization have shown promise, we posit
in this paper that there is much yet to be learned from visual representations
of these same worlds. Specifically, we propose to retrieve images that
represent specific instances of text observations from the world and train our
agents on such images. This improves the agent's overall understanding of the
game 'scene' and objects' relationships to the world around them, and the
variety of visual representations on offer allow the agent to generate a better
generalization of a relationship. We show that incorporating such images
improves the performance of agents in various TBG settings.
- Abstract(参考訳): テキストベースのゲーム(TBG)は、準現実世界における決定を下す学習ベースのエージェントのデモンストレーションの場として人気がある。
このようなtbgsにおける強化学習エージェントの問題点は、世界のオブジェクトとそれらのオブジェクトとその世界との関係を識別することにある。
近年,エージェントの知識を増大させ,その一般化を向上するためにテキストベースのリソースが使われていることは有望であるが,本論文では,これらの同一世界の視覚的表現から学ばないことが示唆されている。
具体的には,世界のテキスト観察の特定の事例を表すイメージを検索し,エージェントをそのようなイメージで訓練することを提案する。
これにより、エージェントがゲーム「シーン」とそれらの周りの世界との関係を総合的に理解し、様々な視覚的表現を提供することで、エージェントは関係をより一般化することができる。
このようなイメージを取り入れることで,様々なTBG設定におけるエージェントの性能が向上することを示す。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。