論文の概要: Modelling non-reinforced preferences using selective attention
- arxiv url: http://arxiv.org/abs/2207.13699v1
- Date: Mon, 25 Jul 2022 22:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 11:56:54.172953
- Title: Modelling non-reinforced preferences using selective attention
- Title(参考訳): 選択的注意を用いた非強化選好のモデル化
- Authors: Noor Sajid, Panagiotis Tigas, Zafeirios Fountas, Qinghai Guo, Alexey
Zakharov, Lancelot Da Costa
- Abstract要約: エージェントの嗜好を更新するための選択的注意を用いた嗜好学習機構を提案する。
改良型OpenAI Gym FrozenLake環境におけるtextscNoreの検証を行った。
textscNoreは外部信号がない場合に探索的嗜好を誘発する簡単なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.609784101826762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How can artificial agents learn non-reinforced preferences to continuously
adapt their behaviour to a changing environment? We decompose this question
into two challenges: ($i$) encoding diverse memories and ($ii$) selectively
attending to these for preference formation. Our proposed
\emph{no}n-\emph{re}inforced preference learning mechanism using selective
attention, \textsc{Nore}, addresses both by leveraging the agent's world model
to collect a diverse set of experiences which are interleaved with imagined
roll-outs to encode memories. These memories are selectively attended to, using
attention and gating blocks, to update agent's preferences. We validate
\textsc{Nore} in a modified OpenAI Gym FrozenLake environment (without any
external signal) with and without volatility under a fixed model of the
environment -- and compare its behaviour to \textsc{Pepper}, a Hebbian
preference learning mechanism. We demonstrate that \textsc{Nore} provides a
straightforward framework to induce exploratory preferences in the absence of
external signals.
- Abstract(参考訳): 人工エージェントはどのようにして非強化された好みを学習し、その振る舞いを変化する環境に継続的に適応させるのか?
多様な記憶を符号化する(i$)と、好みの形成のためにこれらに選択的に参加する(i$)という2つの課題に分解する。
提案手法は, エージェントの世界モデルを用いて, 記憶をエンコードするために, 想像されたロールアウトと連動する多様な経験の集合を収集することで, 選択的注意による選好学習機構である \textsc{nore} を用いる。
これらの記憶は、エージェントの好みを更新するために、注意とゲーティングブロックを使用して選択的に出席する。
修正されたOpenAI Gym FrozenLake環境において、(外部信号なしで)環境の固定されたモデルの下で、かつ、ボラティリティのない環境において \textsc{Nore} を検証し、その振る舞いをヘビーンの好み学習機構である \textsc{Pepper} と比較する。
我々は,外部信号の欠如時に探索的嗜好を誘導する簡単な枠組みを \textsc{nore} で提供することを実証する。
関連論文リスト
- Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文 参考訳(メタデータ) (2024-02-16T03:53:30Z) - SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized
Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。
本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文 参考訳(メタデータ) (2023-12-20T15:18:51Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Signal Strength and Noise Drive Feature Preference in CNN Image
Classifiers [0.0]
我々は、高度に制御されたCNN画像分類実験において、信号と雑音の程度が異なるタスク関連特徴属性の範囲をテストする。
CNNは、その特徴がテクスチャ、形状、色に関わらず、より強い信号強度と低いノイズを持つ特徴を好む。
論文 参考訳(メタデータ) (2022-01-19T11:32:19Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - Exploration and preference satisfaction trade-off in reward-free
learning [3.4998703934432682]
共役前駆体を用いた選好学習機構を備えたモデルベースベイズエージェントを提案する。
OpenAI Gym FrozenLakeと3Dのミニワールド環境において、ボラティリティと非ボラティリティについて説明する。
実験の結果,学習可能な(再帰的でない)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。
論文 参考訳(メタデータ) (2021-06-08T13:24:58Z) - Factorising Meaning and Form for Intent-Preserving Paraphrasing [59.13322531639124]
本稿では,本来の意図を保ちつつ,異なる表面形状を用いる英語質問のパラフレーズを生成する手法を提案する。
我々のモデルは、訓練対象の慎重な選択と原則化された情報のボトルネックを組み合わせる。
従来の手法に比べて意味的保存と構文的ノベルティのトレードオフが良好であるパラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-05-31T15:37:38Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z) - Evidence-Aware Inferential Text Generation with Vector Quantised
Variational AutoEncoder [104.25716317141321]
本稿では,大規模なテキストコーパスからイベントの証拠を自動的に発見し,その証拠を利用して推論テキストの生成を導く手法を提案する。
このアプローチは、Event2MindとATOMICの両方のデータセットで最先端のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2020-06-15T02:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。