論文の概要: Agent-State Construction with Auxiliary Inputs
- arxiv url: http://arxiv.org/abs/2211.07805v2
- Date: Wed, 16 Nov 2022 04:22:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:11:59.223355
- Title: Agent-State Construction with Auxiliary Inputs
- Title(参考訳): 補助入力によるエージェント状態構築
- Authors: Ruo Yu Tao, Adam White, Marlos C. Machado
- Abstract要約: 本稿では,強化学習に補助的な入力を使用する方法の異なる方法を示す一連の例を示す。
これらの補助的な入力は、それ以外はエイリアスされるであろう観測を区別するために使用できることを示す。
このアプローチは、リカレントニューラルネットワークや切り離されたバックプロパゲーションといった最先端の手法を補完するものだ。
- 参考スコア(独自算出の注目度): 16.79847469127811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many, if not every realistic sequential decision-making task, the
decision-making agent is not able to model the full complexity of the world.
The environment is often much larger and more complex than the agent, a setting
also known as partial observability. In such settings, the agent must leverage
more than just the current sensory inputs; it must construct an agent state
that summarizes previous interactions with the world. Currently, a popular
approach for tackling this problem is to learn the agent-state function via a
recurrent network from the agent's sensory stream as input. Many impressive
reinforcement learning applications have instead relied on environment-specific
functions to aid the agent's inputs for history summarization. These
augmentations are done in multiple ways, from simple approaches like
concatenating observations to more complex ones such as uncertainty estimates.
Although ubiquitous in the field, these additional inputs, which we term
auxiliary inputs, are rarely emphasized, and it is not clear what their role or
impact is. In this work we explore this idea further, and relate these
auxiliary inputs to prior classic approaches to state construction. We present
a series of examples illustrating the different ways of using auxiliary inputs
for reinforcement learning. We show that these auxiliary inputs can be used to
discriminate between observations that would otherwise be aliased, leading to
more expressive features that smoothly interpolate between different states.
Finally, we show that this approach is complementary to state-of-the-art
methods such as recurrent neural networks and truncated back-propagation
through time, and acts as a heuristic that facilitates longer temporal credit
assignment, leading to better performance.
- Abstract(参考訳): 多くの場合、すべての現実的な意思決定タスクではないとしても、意思決定エージェントは世界の複雑さを完全にモデル化することはできない。
環境はしばしばエージェントよりも大きく複雑であり、部分的可観測性とも呼ばれる。
このような設定では、エージェントは現在の感覚入力だけでなく、これまでの世界との相互作用を要約するエージェント状態を構築する必要がある。
現在、この問題に取り組むための一般的なアプローチは、エージェントの感覚ストリームからリカレントネットワークを介してエージェントの状態関数を入力として学習することである。
多くの印象的な強化学習アプリケーションは、エージェントの入力を履歴要約に役立てるために、環境特有の機能に依存している。
これらの拡張は、観測を連結するといった単純なアプローチから、不確実性推定のようなより複雑なアプローチまで、複数の方法で行われる。
この分野ではユビキタスだが、補助入力と呼ばれるこれらの追加入力はほとんど強調されず、それらの役割や影響は明らかではない。
この研究で、我々はこのアイデアをさらに探求し、これらの補助的なインプットを、状態構築に対する以前の古典的アプローチに関連付ける。
本稿では,補助入力を用いた強化学習の方法を示す一連の例を示す。
これらの補助的な入力は、他の方法ではエイリアスされるであろう観測を区別するために使用することができ、異なる状態間でスムーズに補間するより表現力のある特徴をもたらす。
最後に,このアプローチは,繰り返しニューラルネットワークや時間経過によるバックプロパゲーションといった最先端の手法を補完するものであり,時間的クレジット割り当ての長期化を促進するヒューリスティックとして機能し,パフォーマンスの向上につながることを示す。
関連論文リスト
- Sim-to-Real Causal Transfer: A Metric Learning Approach to
Causally-Aware Interaction Representations [62.48505112245388]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
因果アノテーションを用いた潜在表現を正規化するための計量学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - What's in a Prior? Learned Proximal Networks for Inverse Problems [9.934876060237345]
近似作用素は、逆問題においてユビキタスであり、通常は、そうでなければ不適切な問題を正則化するための戦略の一部として現れる。
現代のディープラーニングモデルは、プラグアンドプレイやディープアンロールのフレームワークのように、これらのタスクにも耐えられてきました。
論文 参考訳(メタデータ) (2023-10-22T16:31:01Z) - Rotating Features for Object Discovery [74.1465486264609]
本稿では,複雑な特徴を高次元に一般化した回転特徴と,分散表現からオブジェクトを抽出する新たな評価手法を提案する。
これらの進歩により、分散オブジェクト中心の表現を単純な玩具から現実世界のデータに拡張することが可能になります。
論文 参考訳(メタデータ) (2023-06-01T12:16:26Z) - Revisiting Modality Imbalance In Multimodal Pedestrian Detection [6.7841188753203046]
本稿では,マルチモーダルアーキテクチャにおける正規化器を用いた新しいトレーニング構成を導入し,モーダル間の相違を解消する。
具体的には,2つの特徴抽出器を訓練中に同等に重要視することにより,特徴融合法をより堅牢にすることを支援する。
論文 参考訳(メタデータ) (2023-02-24T11:56:57Z) - Improving Out-of-Distribution Generalization of Neural Rerankers with
Contextualized Late Interaction [52.63663547523033]
マルチベクトルの最も単純な形式である後期相互作用は、[]ベクトルのみを使用して類似度スコアを計算する神経リランカにも役立ちます。
異なるモデルサイズと多様な性質の第一段階のレトリバーに一貫性があることが示される。
論文 参考訳(メタデータ) (2023-02-13T18:42:17Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - ASCII: ASsisted Classification with Ignorance Interchange [17.413989127493622]
エージェントが他のエージェントの助けを借りてその分類性能を向上させるためのASCIIという手法を提案する。
主なアイデアは、エージェント間の衝突サンプルごとに0と1の間の無知値を反復的に交換することである。
この方法は自然にプライバシーを意識し、伝達経済と分散学習のシナリオに適している。
論文 参考訳(メタデータ) (2020-10-21T03:57:36Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。