論文の概要: Modelling non-reinforced preferences using selective attention
- arxiv url: http://arxiv.org/abs/2207.13699v1
- Date: Mon, 25 Jul 2022 22:01:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 11:56:54.172953
- Title: Modelling non-reinforced preferences using selective attention
- Title(参考訳): 選択的注意を用いた非強化選好のモデル化
- Authors: Noor Sajid, Panagiotis Tigas, Zafeirios Fountas, Qinghai Guo, Alexey
Zakharov, Lancelot Da Costa
- Abstract要約: エージェントの嗜好を更新するための選択的注意を用いた嗜好学習機構を提案する。
改良型OpenAI Gym FrozenLake環境におけるtextscNoreの検証を行った。
textscNoreは外部信号がない場合に探索的嗜好を誘発する簡単なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 2.609784101826762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How can artificial agents learn non-reinforced preferences to continuously
adapt their behaviour to a changing environment? We decompose this question
into two challenges: ($i$) encoding diverse memories and ($ii$) selectively
attending to these for preference formation. Our proposed
\emph{no}n-\emph{re}inforced preference learning mechanism using selective
attention, \textsc{Nore}, addresses both by leveraging the agent's world model
to collect a diverse set of experiences which are interleaved with imagined
roll-outs to encode memories. These memories are selectively attended to, using
attention and gating blocks, to update agent's preferences. We validate
\textsc{Nore} in a modified OpenAI Gym FrozenLake environment (without any
external signal) with and without volatility under a fixed model of the
environment -- and compare its behaviour to \textsc{Pepper}, a Hebbian
preference learning mechanism. We demonstrate that \textsc{Nore} provides a
straightforward framework to induce exploratory preferences in the absence of
external signals.
- Abstract(参考訳): 人工エージェントはどのようにして非強化された好みを学習し、その振る舞いを変化する環境に継続的に適応させるのか?
多様な記憶を符号化する(i$)と、好みの形成のためにこれらに選択的に参加する(i$)という2つの課題に分解する。
提案手法は, エージェントの世界モデルを用いて, 記憶をエンコードするために, 想像されたロールアウトと連動する多様な経験の集合を収集することで, 選択的注意による選好学習機構である \textsc{nore} を用いる。
これらの記憶は、エージェントの好みを更新するために、注意とゲーティングブロックを使用して選択的に出席する。
修正されたOpenAI Gym FrozenLake環境において、(外部信号なしで)環境の固定されたモデルの下で、かつ、ボラティリティのない環境において \textsc{Nore} を検証し、その振る舞いをヘビーンの好み学習機構である \textsc{Pepper} と比較する。
我々は,外部信号の欠如時に探索的嗜好を誘導する簡単な枠組みを \textsc{nore} で提供することを実証する。
関連論文リスト
- VLP: Vision-Language Preference Learning for Embodied Manipulation [29.7387976970634]
具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。
選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。
提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-02-17T15:32:14Z) - Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。
本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-12-05T02:35:46Z) - Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset [98.52916361979503]
非定常性を自動的にモデル化し適応する新しい学習手法を導入する。
非定常的・非政治的強化学習環境において,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T16:32:40Z) - ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。
ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文 参考訳(メタデータ) (2024-10-21T14:02:40Z) - Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora [4.008122785948581]
本稿では,アノテーション付きデータセットを直接トレーニングしたプロキシモデルを活用することで,前処理を行うセルフキュレーション手法を提案する。
本手法は、一貫性のあるアノテーションを自動的に検出し、選択することで、好みの学習を強化する。
論文 参考訳(メタデータ) (2024-08-23T02:27:14Z) - Dynamic Patch-aware Enrichment Transformer for Occluded Person
Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。
このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。
DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文 参考訳(メタデータ) (2024-02-16T03:53:30Z) - Modeling Dynamic User Preference via Dictionary Learning for Sequential
Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。
浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。
本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文 参考訳(メタデータ) (2022-04-02T03:23:46Z) - Signal Strength and Noise Drive Feature Preference in CNN Image
Classifiers [0.0]
我々は、高度に制御されたCNN画像分類実験において、信号と雑音の程度が異なるタスク関連特徴属性の範囲をテストする。
CNNは、その特徴がテクスチャ、形状、色に関わらず、より強い信号強度と低いノイズを持つ特徴を好む。
論文 参考訳(メタデータ) (2022-01-19T11:32:19Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Generalizing Decision Making for Automated Driving with an Invariant
Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。
本研究では,エゴ車の観点から不変環境表現を提案する。
この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文 参考訳(メタデータ) (2021-02-12T20:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。