論文の概要: Understanding Game-Playing Agents with Natural Language Annotations
- arxiv url: http://arxiv.org/abs/2204.07531v1
- Date: Fri, 15 Apr 2022 16:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 14:55:29.456385
- Title: Understanding Game-Playing Agents with Natural Language Annotations
- Title(参考訳): 自然言語アノテーションによるゲームプレイングエージェントの理解
- Authors: Nicholas Tomlin, Andre He, Dan Klein
- Abstract要約: 本稿では,Goの10万個の人手による注釈付きゲームを含む新しいデータセットを提案する。
モデル解釈可能性のためのツールとして、これらの自然言語アノテーションをどのように利用できるかを示す。
- 参考スコア(独自算出の注目度): 34.66200889614538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new dataset containing 10K human-annotated games of Go and show
how these natural language annotations can be used as a tool for model
interpretability. Given a board state and its associated comment, our approach
uses linear probing to predict mentions of domain-specific terms (e.g., ko,
atari) from the intermediate state representations of game-playing agents like
AlphaGo Zero. We find these game concepts are nontrivially encoded in two
distinct policy networks, one trained via imitation learning and another
trained via reinforcement learning. Furthermore, mentions of domain-specific
terms are most easily predicted from the later layers of both models,
suggesting that these policy networks encode high-level abstractions similar to
those used in the natural language annotations.
- Abstract(参考訳): 本稿では,Goの10万のゲームを含む新しいデータセットを提案し,これらの自然言語アノテーションをモデル解釈可能性のツールとして利用できることを示す。
ボード状態とその関連するコメントが与えられた場合、我々はAlphaGo Zeroのようなゲームプレイングエージェントの中間状態表現からドメイン固有項(例えばko, atari)の言及を予測するために線形探索を用いる。
これらのゲームの概念は、2つの異なるポリシーネットワークで非自明にエンコードされ、一方は模倣学習、もう一方は強化学習によって訓練されている。
さらに、ドメイン固有の用語の言及は、両方のモデルの後半層から最も容易に予測でき、これらのポリシーネットワークは、自然言語アノテーションで使われるものに似た高レベルの抽象化を符号化していることを示唆している。
関連論文リスト
- Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。
大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。
その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-08-01T15:46:22Z) - player2vec: A Language Modeling Approach to Understand Player Behavior in Games [2.2216044069240657]
過去の行動ログから潜在ユーザ表現を学習する手法は、eコマース、コンテンツストリーミング、その他の設定におけるレコメンデーションタスクの注目を集めている。
本稿では,長距離トランスフォーマーモデルをプレイヤーの行動データに拡張することで,この制限を克服する新しい手法を提案する。
ゲームにおける行動追跡の具体性について議論し,文中の単語に類似した方法でゲーム内イベントを視聴することで,前処理とトークン化のアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-05T17:29:47Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Linking Emergent and Natural Languages via Corpus Transfer [98.98724497178247]
創発言語と自然言語のコーパス転送によるリンクを確立する新しい方法を提案する。
このアプローチでは,言語モデリングとイメージキャプションという,2つの異なるタスクに対して,非自明な転送メリットを示す。
また,同一画像に基づく自然言語キャプションに創発的メッセージを翻訳することで,創発的言語の伝達可能性を予測する新しい指標を提案する。
論文 参考訳(メタデータ) (2022-03-24T21:24:54Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - ALICE: Active Learning with Contrastive Natural Language Explanations [69.03658685761538]
本研究では,学習におけるデータ効率を向上させるために,AlICEを用いたアクティブラーニングを提案する。
ALICEは、まずアクティブラーニングを使用して、最も情報に富んだラベルクラスを選択し、対照的な自然言語の説明を引き出す。
意味的に抽出された知識を用いて、これらの説明から知識を抽出する。
論文 参考訳(メタデータ) (2020-09-22T01:02:07Z) - Grounded Language Learning Fast and Slow [23.254765095715054]
本研究では,従来の強化学習アルゴリズムを用いて訓練すると,実施エージェントが類似したワンショット単語学習を行うことができることを示す。
特定の訓練条件下では、エージェントのワンショットワードオブジェクト結合は、同じShapeNetカテゴリ内の新しい例に一般化される。
さらに、二重符号化メモリを本質的なモチベーションの信号として利用し、エージェントが後続の命令を実行するのに有用なオブジェクトの名前を検索するように促す方法を示す。
論文 参考訳(メタデータ) (2020-09-03T14:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。