Fugu-MT 論文翻訳(概要): Modelling non-reinforced preferences using selective attention

論文の概要: Modelling non-reinforced preferences using selective attention

arxiv url: http://arxiv.org/abs/2207.13699v1
Date: Mon, 25 Jul 2022 22:01:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-29 11:56:54.172953
Title: Modelling non-reinforced preferences using selective attention
Title（参考訳）: 選択的注意を用いた非強化選好のモデル化
Authors: Noor Sajid, Panagiotis Tigas, Zafeirios Fountas, Qinghai Guo, Alexey Zakharov, Lancelot Da Costa
Abstract要約: エージェントの嗜好を更新するための選択的注意を用いた嗜好学習機構を提案する。改良型OpenAI Gym FrozenLake環境におけるtextscNoreの検証を行った。 textscNoreは外部信号がない場合に探索的嗜好を誘発する簡単なフレームワークを提供する。
参考スコア（独自算出の注目度）: 2.609784101826762
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: How can artificial agents learn non-reinforced preferences to continuously adapt their behaviour to a changing environment? We decompose this question into two challenges: ($i$) encoding diverse memories and ($ii$) selectively attending to these for preference formation. Our proposed \emph{no}n-\emph{re}inforced preference learning mechanism using selective attention, \textsc{Nore}, addresses both by leveraging the agent's world model to collect a diverse set of experiences which are interleaved with imagined roll-outs to encode memories. These memories are selectively attended to, using attention and gating blocks, to update agent's preferences. We validate \textsc{Nore} in a modified OpenAI Gym FrozenLake environment (without any external signal) with and without volatility under a fixed model of the environment -- and compare its behaviour to \textsc{Pepper}, a Hebbian preference learning mechanism. We demonstrate that \textsc{Nore} provides a straightforward framework to induce exploratory preferences in the absence of external signals.
Abstract（参考訳）: 人工エージェントはどのようにして非強化された好みを学習し、その振る舞いを変化する環境に継続的に適応させるのか? 多様な記憶を符号化する(i$)と、好みの形成のためにこれらに選択的に参加する(i$)という2つの課題に分解する。提案手法は, エージェントの世界モデルを用いて, 記憶をエンコードするために, 想像されたロールアウトと連動する多様な経験の集合を収集することで, 選択的注意による選好学習機構である \textsc{nore} を用いる。これらの記憶は、エージェントの好みを更新するために、注意とゲーティングブロックを使用して選択的に出席する。修正されたOpenAI Gym FrozenLake環境において、(外部信号なしで)環境の固定されたモデルの下で、かつ、ボラティリティのない環境において \textsc{Nore} を検証し、その振る舞いをヘビーンの好み学習機構である \textsc{Pepper} と比較する。我々は,外部信号の欠如時に探索的嗜好を誘導する簡単な枠組みを \textsc{nore} で提供することを実証する。

関連論文リスト

User Invariant Preference Learning for Multi-Behavior Recommendation [27.939977213259766]
We propose a user invariant preference learning for multi-behavior recommendation (UIPL)。 UIPLは、マルチビヘイビアインタラクションからユーザの本質的な関心を捉え、ノイズの導入を緩和することを目的としている。 4つの実世界のデータセットの実験では、UIPLが現在の最先端のメソッドを大幅に上回っていることが示されている。
論文参考訳（メタデータ） (2025-07-20T11:47:36Z)
Configurable Preference Tuning with Rubric-Guided Synthetic Data [0.6526824510982799]
本稿では,言語モデルに明示的,人間解釈可能な指示に基づく行動調整機能を持たせるための新しい枠組みを提案する。トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
論文参考訳（メタデータ） (2025-06-13T12:17:38Z)
Adaptive Helpfulness-Harmlessness Alignment with Preference Vectors [13.630818884973127]
タスク演算にインスパイアされた新しいフレームワークであるPreference Vectorを提案する。単一の目的内で複数の選好を最適化する代わりに、個々の選好について別々のモデルをトレーニングし、選好ベクトルとして振る舞いシフトを抽出し、テスト時に動的にマージします。実験の結果,提案するPreference Vectorフレームワークは,過度な保守性のない利便性の向上,好みのトレードオフのスムーズな制御,スケーラブルなマルチ参照アライメントをサポートすることがわかった。
論文参考訳（メタデータ） (2025-04-27T12:16:51Z)
Selecting and Pruning: A Differentiable Causal Sequentialized State-Space Model for Two-View Correspondence Learning [36.25732435294088]
2視点対応学習は,イメージペア間の真と偽の対応を識別することを目的としている。 Mamba固有の選択性にインスパイアされ、textbfCorrMamba, textbfCor correspondingence filterを提案する。我々の方法は、AUC@20textdegreeにおいて、以前のSOTAを2.58ドルの絶対パーセンテージポイントで上回っている。
論文参考訳（メタデータ） (2025-03-23T04:44:21Z)
Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。数発のステアライメントのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-18T16:14:59Z)
Beyond the Binary: Capturing Diverse Preferences With Reward Regularization [15.518838657050173]
この二項選択への依存は、現実のタスクにおいて対象ユーザのより広範囲で集約的な嗜好を捉えるものではない、と我々は主張する。本稿では、既存の二分選好データセットを合成選好判断で拡張し、潜在的なユーザ不一致を推定する、シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2024-12-05T02:35:46Z)
Non-Stationary Learning of Neural Networks with Automatic Soft Parameter Reset [98.52916361979503]
非定常性を自動的にモデル化し適応する新しい学習手法を導入する。非定常的・非政治的強化学習環境において,本手法が有効であることを示す。
論文参考訳（メタデータ） (2024-11-06T16:32:40Z)
ComPO: Community Preferences for Language Model Personalization [122.54846260663922]
ComPOは、言語モデルにおける好みの最適化をパーソナライズする手法である。 ComPRedはRedditからコミュニティレベルの好みを持った質問応答データセットです。
論文参考訳（メタデータ） (2024-10-21T14:02:40Z)
Preference Consistency Matters: Enhancing Preference Learning in Language Models with Automated Self-Curation of Training Corpora [4.008122785948581]
本稿では,アノテーション付きデータセットを直接トレーニングしたプロキシモデルを活用することで,前処理を行うセルフキュレーション手法を提案する。本手法は、一貫性のあるアノテーションを自動的に検出し、選択することで、好みの学習を強化する。
論文参考訳（メタデータ） (2024-08-23T02:27:14Z)
Dynamic Patch-aware Enrichment Transformer for Occluded Person Re-Identification [14.219232629274186]
DPEFormer(Dynamic Patch-aware Enrichment Transformer)と呼ばれるエンドツーエンドのソリューションを提案する。このモデルは,人体情報と隠蔽情報を自動的かつ動的に識別する。 DPSM と DPEFormer 全体が識別ラベルのみを用いて効果的に学習できることを保証するため,本手法では,実効性を有する Occlusion Augmentation (ROA) 戦略も提案する。
論文参考訳（メタデータ） (2024-02-16T03:53:30Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.7420433640907689]
一般化ゼロショット学習(GZSL)は、見知らぬクラスから知識を伝達することで、目に見えないクラスを認識する。本稿では,一般化ギャップに対処するための二重戦略を提案する。
論文参考訳（メタデータ） (2023-12-20T15:18:51Z)
Modeling Dynamic User Preference via Dictionary Learning for Sequential Recommendation [133.8758914874593]
ユーザの好みのダイナミックさを捉えることは、ユーザの将来の行動を予測する上で非常に重要です。浅いものも深いものも含む、既存のレコメンデーションアルゴリズムの多くは、このようなダイナミクスを独立してモデル化することが多い。本稿では、ユーザのシーケンシャルな振る舞いを、ユーザ好みの潜伏した空間に埋め込むことの問題について考察する。
論文参考訳（メタデータ） (2022-04-02T03:23:46Z)
Signal Strength and Noise Drive Feature Preference in CNN Image Classifiers [0.0]
我々は、高度に制御されたCNN画像分類実験において、信号と雑音の程度が異なるタスク関連特徴属性の範囲をテストする。 CNNは、その特徴がテクスチャ、形状、色に関わらず、より強い信号強度と低いノイズを持つ特徴を好む。
論文参考訳（メタデータ） (2022-01-19T11:32:19Z)
Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文参考訳（メタデータ） (2022-01-07T18:44:28Z)
Contrastive Self-supervised Sequential Recommendation with Robust Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文参考訳（メタデータ） (2021-08-14T07:15:25Z)
Exploration and preference satisfaction trade-off in reward-free learning [3.4998703934432682]
共役前駆体を用いた選好学習機構を備えたモデルベースベイズエージェントを提案する。 OpenAI Gym FrozenLakeと3Dのミニワールド環境において、ボラティリティと非ボラティリティについて説明する。実験の結果,学習可能な(再帰的でない)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。
論文参考訳（メタデータ） (2021-06-08T13:24:58Z)
Generalizing Decision Making for Automated Driving with an Invariant Environment Representation using Deep Reinforcement Learning [55.41644538483948]
現在のアプローチは、トレーニングデータを超えてよく一般化されないか、または可変数のトラフィック参加者を考慮することができない。本研究では,エゴ車の観点から不変環境表現を提案する。この抽象化により,エージェントが未確認シナリオに対してうまく一般化できることが示される。
論文参考訳（メタデータ） (2021-02-12T20:37:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。