論文の概要: Exploiting Language Instructions for Interpretable and Compositional
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2001.04418v1
- Date: Mon, 13 Jan 2020 17:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:05:24.625534
- Title: Exploiting Language Instructions for Interpretable and Compositional
Reinforcement Learning
- Title(参考訳): 解釈・構成強化学習における言語指導の活用
- Authors: Michiel van der Meer, Matteo Pirotta, Elia Bruni
- Abstract要約: 我々はRLエージェントから潜伏空間を解釈し、複素言語命令における現在の目的を特定する。
その結果, 分類過程が隠れ状態の変化を引き起こし, より容易に解釈できることが示唆された。
分類の監督シグナルを制限し、類似しているがあまり目立たない効果を観察する。
- 参考スコア(独自算出の注目度): 23.41381408504966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an alternative approach to making an agent
compositional through the use of a diagnostic classifier. Because of the need
for explainable agents in automated decision processes, we attempt to interpret
the latent space from an RL agent to identify its current objective in a
complex language instruction. Results show that the classification process
causes changes in the hidden states which makes them more easily interpretable,
but also causes a shift in zero-shot performance to novel instructions. Lastly,
we limit the supervisory signal on the classification, and observe a similar
but less notable effect.
- Abstract(参考訳): 本稿では,診断分類器を用いてエージェントを構成する方法を提案する。
自動決定プロセスにおいて説明可能なエージェントが必要となるため、rlエージェントから潜在空間を解釈し、その現在の目的を複雑な言語命令で識別する。
その結果, 分類過程は, より容易に解釈できる隠蔽状態の変化を引き起こすが, ゼロショット性能を新しい命令にシフトさせる原因となることがわかった。
最後に,分類の監視信号を制限し,類似するがあまり顕著ではない効果を観測する。
関連論文リスト
- CRAT: A Multi-Agent Framework for Causality-Enhanced Reflective and Retrieval-Augmented Translation with Large Language Models [59.8529196670565]
CRATは、RAGと因果強化自己回帰を利用して翻訳課題に対処する、新しいマルチエージェント翻訳フレームワークである。
以上の結果からCRATは翻訳精度を著しく向上させ,特に文脈に敏感な単語や語彙の出現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-28T14:29:11Z) - Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition [55.97779732051921]
表情認識(FER)のための最先端の分類器は、エンドユーザーにとって重要な特徴である解釈可能性に欠ける。
新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。
我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。
論文 参考訳(メタデータ) (2024-10-01T10:42:55Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Semi-supervised counterfactual explanations [3.6810543937967912]
トレーニングデータと同じデータ分布にある反実的説明を生成するという課題に対処する。
この要件は, 自動エンコーダ再構築損失を, 対物探索プロセスに組み込むことによって解決されている。
本稿では,クラスタグ付き入力データを用いた半教師付き方式で自動エンコーダを訓練した場合の対実的説明の解釈性をさらに向上することを示す。
論文 参考訳(メタデータ) (2023-03-22T15:17:16Z) - Explainable Reinforcement Learning via Model Transforms [18.385505289067023]
基礎となるマルコフ決定プロセスが完全には分かっていないとしても、それにもかかわらず、自動的に説明を生成するために利用することができる、と我々は主張する。
本稿では,従来の文献で最適ポリシー探索の高速化に用いられていた形式的MDP抽象化と変換を用いて,説明を自動的に生成することを提案する。
論文 参考訳(メタデータ) (2022-09-24T13:18:06Z) - Homomorphism Autoencoder -- Learning Group Structured Representations from Observed Transitions [51.71245032890532]
本研究では,世界に作用するエージェントが,それを修飾する動作と整合した感覚情報の内部表現を学習できるようにする手法を提案する。
既存の作業とは対照的に、我々のアプローチはグループの事前の知識を必要とせず、エージェントが実行可能なアクションのセットを制限しない。
論文 参考訳(メタデータ) (2022-07-25T11:22:48Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - A Novel Approach to Curiosity and Explainable Reinforcement Learning via
Interpretable Sub-Goals [0.0]
強化学習における2つの重要な課題は、(a)環境内でのエージェント学習の改善、および(b)エージェントアクションの説明可能性である。
これらの課題に対処するために、興味深いサブゴールに焦点を当てたエージェントについて説明する。
環境遷移にロバストな環境遷移のモデルとして,gan(generative adrial network)を用いた新たな好奇心評価手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T05:21:13Z) - Counterfactual Detection meets Transfer Learning [48.82717416666232]
既存のモデルアーキテクチャに最小限の適応で実装可能な,単純なバイナリ分類タスクであることを示す。
本稿では,先行者や後続者をエンティティ認識タスクとして処理するエンド・ツー・エンドパイプラインを導入し,それらをトークン分類に適用する。
論文 参考訳(メタデータ) (2020-05-27T02:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。