論文の概要、ライセンス

# (参考訳) 文脈依存意思決定のための表現学習 [全文訳有]

Representation Learning for Context-Dependent Decision-Making ( http://arxiv.org/abs/2205.05820v1 )

ライセンス: CC BY 4.0
Yuzhen Qin, Tommaso Menara, Samet Oymak, ShiNung Ching, and Fabio Pasqualetti(参考訳) 人間は環境の変化に柔軟かつ迅速に適応することができる。 実証的な証拠は、表現学習が人間にそのような能力を与える上で重要な役割を担っていることを明らかにしている。 本研究は,文脈変化を伴う逐次意思決定シナリオにおける表現学習について考察する。 本研究では,文脈依存表現を学習し,伝達することが可能なオンラインアルゴリズムを提案する。 ケーススタディとして、我々のアルゴリズムを、シーケンシャルな意思決定における人間の精神的柔軟性の確立されたテストであるウィスコンシンカードソーティングタスクに適用する。 本アルゴリズムと標準Q-ラーニングアルゴリズムとDeep-Qラーニングアルゴリズムを比較し,適応表現学習の利点を実証する。

Humans are capable of adjusting to changing environments flexibly and quickly. Empirical evidence has revealed that representation learning plays a crucial role in endowing humans with such a capability. Inspired by this observation, we study representation learning in the sequential decision-making scenario with contextual changes. We propose an online algorithm that is able to learn and transfer context-dependent representations and show that it significantly outperforms the existing ones that do not learn representations adaptively. As a case study, we apply our algorithm to the Wisconsin Card Sorting Task, a well-established test for the mental flexibility of humans in sequential decision-making. By comparing our algorithm with the standard Q-learning and Deep-Q learning algorithms, we demonstrate the benefits of adaptive representation learning.
公開日: Thu, 12 May 2022 01:06:57 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Representation Learning for Context-Dependent Decision-Making 文脈依存意思決定のための表現学習 0.54
Yuzhen Qin, Tommaso Menara, Samet Oymak, ShiNung Ching, and Fabio Pasqualetti 夕日秦、トマソ・メナラ、サメット・オイマク、シヌン・チン、ファビオ・パスカレッティ 0.35
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] G L . s c [ ] G L。 sc [ 0.47
1 v 0 2 8 5 0 1 v 0 2 8 5 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract— Humans are capable of adjusting to changing environments flexibly and quickly. 抽象 – 人間は柔軟かつ迅速に環境の変化に適応できる。 0.82
Empirical evidence has revealed that representation learning plays a crucial role in endowing humans with such a capability. 実証的な証拠は、表現学習が人間にそのような能力を与える上で重要な役割を担っていることを明らかにしている。
訳抜け防止モード: 実証的な証拠が明らかにした 表現学習は 人間にそのような能力を与える上で 重要な役割を担います
0.67
Inspired by this observation, we study representation learning in the sequential decision-making scenario with contextual changes. 本研究は,文脈変化を伴う逐次意思決定シナリオにおける表現学習について考察する。 0.75
We propose an online algorithm that is able to learn and transfer contextdependent representations and show that it significantly outperforms the existing ones that do not learn representations adaptively. 本稿では,文脈依存表現を学習し,伝達することができるオンラインアルゴリズムを提案し,適応的に表現を学習しない既存の表現を著しく上回っていることを示す。 0.61
As a case study, we apply our algorithm to the Wisconsin Card Sorting Task, a well-established test for the mental flexibility of humans in sequential decision-making. ケーススタディとして、我々のアルゴリズムを、シーケンシャルな意思決定における人間の精神的柔軟性の確立されたテストであるウィスコンシンカードソーティングタスクに適用する。 0.68
By comparing our algorithm with the standard Q-learning and Deep-Q learning algorithms, we demonstrate the benefits of adaptive representation learning. 本アルゴリズムと標準Q-ラーニングアルゴリズムとDeep-Qラーニングアルゴリズムを比較し,適応表現学習の利点を実証する。 0.78
I. INTRODUCTION I. イントロダクション 0.64
Real-world decision-making is complicated since environments are often complex and rapidly changing. 環境はしばしば複雑で、急速に変化するので、現実の意思決定は複雑です。 0.58
Yet, human beings have shown the remarkable ability to make good decisions in such environments. しかし、人間はそのような環境で良い決断を下す素晴らしい能力を示してきた。 0.69
At the core of this ability is the flexibility to adapt their behaviors in different situations [1]. この能力の核心は、異なる状況で彼らの行動に適応するための柔軟性です[1]。 0.82
Such adaption is usually fast since humans learn to abstract experiences into compact representations that support the efficient construction of new strategies [2]. このような適応は通常、人間が経験を抽象的に表現し、新しい戦略の効率的な構築を支援するため、速い。 0.71
Lacking the ability to adapt to new environments and abstract compressed information from experiences, existing learning techniques often struggle in complex scenarios that undergo contextual changes. 新しい環境に適応し、経験から圧縮された情報を抽象化する能力の欠如 既存の学習テクニックは、コンテキストの変化を受ける複雑なシナリオでしばしば苦労する。 0.77
To elaborate on this point, let us consider a running example – the Wisconsin Card Sorting Task (WCST). この点について詳しくは、実行中の例であるウィスコンシンカードソートタスク(the wisconsin card sorting task,wcst)を見てみよう。 0.65
The WCST is one of the most frequently used neuropsychological tests to assess people’s ability to abstract information and shift between contexts [3]. wcstは、情報を抽象化し、コンテキスト間を移動する人々の能力を評価するために最も頻繁に使用される神経心理学のテストの1つです。
訳抜け防止モード: WCSTは最も頻繁に使用される神経心理学検査の一つである 情報を抽象化し、コンテキスト間のシフトを評価する能力を評価する[3]。
0.71
Illustrated in Fig. 1, participants are initially given four cards and are required to associate a sequence of stimulus cards with these four cards according to some sorting rules – number, color, and shape. 図1に示すように、参加者には最初は4枚のカードが与えられ、数字、色、形状といった分類規則に従って、一連の刺激カードとこれら4枚のカードを関連付ける必要がある。 0.68
Participants have no prior knowledge of the current sorting rule, thus need to learn it by trial and error. 参加者は現在のソートルールについて事前の知識を持っていないため、試行錯誤によって学習する必要がある。 0.56
They receive a feedback indicating whether their sort action is correct or incorrect. 彼らは、ソートアクションが正しいか間違っているかを示すフィードバックを受け取る。 0.63
What makes the task more challenging is that the sorting rule changes every once in a while without informing the participants. タスクをより難しくしているのは、ソートルールが参加者に知らせることなく、たまに変わることです。 0.67
Thus, the participants need to learn the changes and adjust their strategy. したがって、参加者は変化を学び、戦略を調整する必要がある。 0.73
Y. Qin and F. Pasqualetti are with the Department of Mechanical Engineering ({yuzhenqin,fabiopas}@engr.ucr.edu), and S. Oymak is with the Department of Electrical and Computer Engineering (oymak@ece.ucr.edu), University of California, Riverside, CA, USA. Y.QinとF. Pasqualettiは機械工学科({yuzhenqin,fabiopas}@engr.ucr.edu)、S. Oymakはカリフォルニア大学リバーサイド校電気コンピュータ工学科(oymak@ece.ucr.edu)に所属している。 0.76
T. Menara is with the Department of Mechanical and Aerospace Engineering, University of California, San Diego, La Jolla, CA 92093, USA. t. menaraは、カリフォルニア大学サンディエゴ校、ラ・ジョラ校、カリフォルニア州92093校の機械・航空宇宙工学部に所属している。 0.71
S. Ching is with the Department of Electrical and Systems Engineering and Biomedical Engineering, Washington University in St. Louis, MO, USA. S. Chingは、アメリカ合衆国、セントルイスにあるワシントン大学の電気・システム工学・バイオメディカル工学科に属している。 0.75
This material was based upon work supported by awards ARO W911NF1910360 and NSF NCS-FO-1926829. この素材は、ARO W911NF1910360とNSF NCS-FO-1926829の支援を受けている。 0.56
Fig. 1. The Wisconsin Card Sorting Task. 図1。 ウィスコンシンのカードの仕分け作業。 0.42
Left: Illustration of the task. 左: タスクのイラスト。 0.58
Participants need to sort a sequence of stimulus cards into four categories according to unknown changing rules: number, color, and shape. 参加者は、数字、色、形状の未知のルールに従って、刺激カードのシーケンスを4つのカテゴリに分類する必要がある。 0.63
Right: Performance of classical reinforcement learning algorithms in this task where the sorting rule changes after every 20 rounds. 右: 20ラウンドごとにソートルールが変化するこのタスクにおける古典的な強化学習アルゴリズムのパフォーマンス。 0.82
Here, we consider that participants receive reward 1 for a correct sorting action and 0 otherwise Each shaded area contains 20 realizations of the corresponding algorithm. ここでは、参加者は正しいソート動作に対して報酬1を受け取り、それ以外の場合、各シェード領域は、対応するアルゴリズムの20個の実現を含む。
訳抜け防止モード: ここでは 参加者は、正しいソートアクションに対する報酬1を受け取ります そして0でなければ、各シェード領域は対応するアルゴリズムの20個の実現を含む。
0.73
Healthy humans usually perform very well in the WCST. 健康な人間は通常、WCSTで非常によく機能する。 0.64
Some neuroimaging studies have found that different brain regions, such as the dorsolateral prefrontal cortex and the anterior cingulate cortex, play crucial roles in context shifting, error detection, and abstraction, all of which are needed by the WCST [4]. 神経画像研究によっては、前頭前皮質や前頭前皮質といった異なる脳領域が、wcst[4]で必要とされるコンテキストシフト、エラー検出、抽象化において重要な役割を果たすことが示されている。 0.65
By contrast, classical learning algorithms such as tabular-Q-learning and Deep-Q-learning struggle in the WCST, especially when the sorting rule changes rapidly. 対照的に、表型q学習やディープq学習といった古典的学習アルゴリズムは、特にソートルールが急速に変化するwcstで苦労している。 0.57
It can be seen from Fig 1 that standard reinforcement learning (RL) algorithms1 perform barely better than the strategy that takes random sorting actions at every round. 図1からわかるように、標準強化学習(RL)アルゴリズム1は、各ラウンドでランダムにソートする戦略よりも、わずかに優れている。 0.77
Motivated by these observations, we aim to develop decision-making strategies that have more human-like performance. これらの観察により、より人間的なパフォーマンスを持つ意思決定戦略の開発を目指す。 0.64
In this paper, we focus on demonstrating the benefits of the ability to abstract compact information (i.e., learn the representation) and adapt to changing contexts in the framework of a sequential decision-making model – linear multi-armed bandits. 本稿では,コンパクトな情報(つまり表現を学習する)を抽象化し,連続的な意思決定モデル – 線形多武装バンディット – の枠組みにおけるコンテキストの変化に適応する能力のメリットを示すことに焦点をあてる。 0.79
As we will show later, the WCST can be readily modeled in this framework. 後述するように、WCSTはこのフレームワークで簡単にモデル化できます。 0.66
Related Work. As a classical model for decision-making, multi-armed bandits have attracted extensive interests. 関連作品。 意思決定の古典的なモデルとして、多武装の盗賊は幅広い関心を集めている。 0.54
The Upper Confidence Bound (UCB) algorithm and its variants have proven their strength in tackling multi-armed bandit problems (e g , see [5], [6]). upper confidence bound (ucb) アルゴリズムとその変種は、マルチアームのバンディット問題(例えば [5], [6])に取り組む際の強みを証明している。 0.75
Various generalizations of the classical bandit problem have been studied, in which nonstationary reward functions [7], [8], restless arms [9], satisficing reward objectives [10], risk-averse decision-makers [11], heavy-tailed reward distributions [12], and multiple players [13] are considered. 古典的バンディット問題の様々な一般化が研究され、非定常報酬関数 [7], [8], レストアーム [9], 満足報酬目標 [10], リスク回避意思決定者 [11], ヘビーテール報酬分布 [12], 複数プレイヤー [13] が検討されている。 0.76
Recently, increasing attention has been also paid to tackling bandit problems in a distributed fashion (e g , see [14]–[17]). 近年、分散方式でバンディット問題に取り組むことにも注目が集まっている(例:[14]–[17])。
訳抜け防止モード: 最近 注目されているのは 分散方式でバンドイット問題に取り組む(例えば、[14]–[17 ]を参照)。
0.53
1For the Deep-Q-learning, we considered a three-layer structure with 12 nodes in the hidden layers (more details can be found in Section IV). 1)Deep-Q-learningでは,12ノードを隠蔽層に配置した3層構造を検討した(詳細はセクションIVを参照)。 0.75
Deeper or wider networks were also tried, but similar performances were observed. より深いネットワークやより広いネットワークも試みられたが、同様のパフォーマンスが観察された。 0.57
2040608010002040Tabu larQDQLrandomCumulat iveRewardRoundsnumbe rcolorshapeStimulusc ard: 2040608010002040Tabu larQDQLrandomCumulat iveRewardRoundsnumbe rcolorshapeStimulusc ard 0.04
英語(論文から抽出)日本語訳スコア
Representation learning has been applied to a wide range of practical problems including natural language processing, computer vision, and reinforcement learning [18]. 表現学習は,自然言語処理,コンピュータビジョン,強化学習など,幅広い実用的問題に適用されてきた [18]。 0.79
Some recent studies have shown that representation learning improves data efficiency in the multi-task linear regression [19]. 最近の研究では、表現学習はマルチタスク線形回帰[19]におけるデータ効率を改善することが示されている。
訳抜け防止モード: 最近の研究では 表現学習はマルチタスク線形回帰におけるデータ効率を向上させる [19]。
0.84
Representation learning has been proven to be beneficial for multi-task bandit problems, e g , see [20]–[23]. 表現学習はマルチタスクのバンディット問題(例えば[20]–[23])に有用であることが証明されている。 0.63
Most of the aforementioned studies focus on batch learning where all the tasks are played simultaneously. 上記の研究のほとんどは、すべてのタスクが同時に実行されるバッチ学習に焦点を当てている。 0.65
Despite some attempts (e g , see [24]), results on sequential bandits are sparse, although one often needs to execute tasks sequentially in real life. いくつかの試み(例: [24])にもかかわらず、シーケンシャルなバンドの結果はスパースであるが、実際にタスクをシーケンシャルに実行する必要がある。
訳抜け防止モード: いくつかの試みにもかかわらず(例: [ 24 ] ) 連続バンディットの結果は まばらですが 実生活で連続的にタスクを実行する必要があります
0.78
Paper Contribution. In this paper, we consider a decision-making scenario with changing contexts. 論文寄稿。 本稿では,状況変化を伴う意思決定シナリオについて考察する。 0.64
A multitask decision-making model with tasks sequentially drawn from distinct sets is used to describe a dynamic environment. 動的環境を記述するために、異なる集合から逐次的に引き出されたタスクを持つマルチタスク決定モデルを用いる。 0.72
Our main contribution is an algorithm that is able to abstract low-dimensional representations and adapt to contextual changes. 我々の主な貢献は、低次元表現を抽象化し、文脈変化に適応できるアルゴリズムである。 0.77
We further derive some analytical results, showing the benefits of adaptive representation learning in complex and dynamic environments. さらに,複雑な動的環境における適応表現学習の利点を示す解析結果も導出する。 0.80
To demonstrate our theoretical findings, we apply our algorithm to the WCST and show that it significantly outperforms classical RL algorithms. 理論的な知見を示すために,本アルゴリズムをwcstに適用し,従来のrlアルゴリズムを大きく上回っていることを示す。 0.66
Notation. Let R, R+, and Z+ be the sets of real numbers, positive reals, and positive integers, respectively. 表記。 R, R+, Z+ をそれぞれ実数、正実数、正整数の集合とする。
訳抜け防止モード: 表記。 R, R+, Z+ を実数の集合とする。 正の実数、正の整数、それぞれ。
0.63
Given a matrix A ∈ Rm×n, span(A) denotes its column space, A⊥ denote the matrix with orthonormal columns that form the perpendicular complement of span(A), (cid:107)A(cid:107)F denotes its Frobenius norm, and [A]i denotes its ith column. 行列 a ∈ rm×n が与えられたとき、span(a) はその列空間を表し、a\ はスパン(a) の直交補数を形成する正規直交列を持つ行列を表し、 (cid:107)a(cid:107)f はそのフロベニウスノルムを表し、 [a]i はその ith 列を表す。
訳抜け防止モード: 行列 A ∈ Rm×n が与えられたとき、スパン(A ) はその列空間 A を表わす。 正則列を持つ行列を表す span(A)の垂直補体を形成する cid:107)A(cid:107)Fはフロベニウスノルムを表す。 そして [A]i はその ith カラムを表す。
0.83
For any x ∈ R+, (cid:100)x(cid:101) denotes the smallest integer larger than x. 任意の x ∈ R+ に対して (cid:100)x(cid:101) は x より大きい最小の整数を表す。 0.76
Given two functions f, g : R+ → R+, we write f (x) = O(g(x)) if there is Mo > 0 and x0 > 0 such that f (x) ≤ Mog(x) for all x ≥ x0, and f (x) = ˜O(g(x)) if f (x) = O(g(x) logk(x)). 2つの関数 f, g : r+ → r+ が与えられると、f (x) = o(g(x)) と書くと、mo > 0 と x0 > 0 が存在して f (x) ≤ mog(x) がすべての x ≥ x0 に対して成立し、f (x) = o(g(x) logk(x)) が f (x) = o(g(x) logk(x)) であれば f (x) ≤ mog(x) となる。 0.78
Also, we denote f (x) = Ω(g(x)) if there is MΩ > 0 and x0 > 0 such that f (x) ≥ MΩg(x) for all x ≥ x0, and f (x) = Θ(g(x)) if f (x) = O(g(x)) and f (x) = Ω(g(x)). また、すべての x ≥ x0 に対して f (x) ≥ MΩg(x) となるような MΩ > 0 と x0 > 0 が存在するとき、f (x) = Ω(g(x)) と f (x) = O(g(x)) および f (x) = Ω(g(x)) が成り立つとき、f (x) = Ω(x)) と書く。 0.93
Motivated by real-world tasks like the WCST, we consider WCSTのような現実世界のタスクに動機付けられる 0.77
the following sequential decision-making model: 次の逐次意思決定モデル。 0.76
II. PROBLEM SETUP yt = x(cid:62)t θσ(t) + ηt, II。 問題設定 yt = x(cid:62)t θσ(t) + ηt, 0.50
(1) where xt ∈ A ⊆ Rd is the action taken from the action set A at round t, and yt ∈ R is the reward received by the agent (i.e., decision maker). 1) xt ∈ A > Rd が円 t における作用集合 A から取られた作用であり、yt ∈ R がエージェント(すなわち意思決定者)から受け取った報酬である。 0.68
The reward depends on the action in a linear way determined by the unknown coefficient θσ(t), and is also affected by the 1-sub-Gaussian noise ηt that models the uncertainty. 報酬は未知の係数 θσ(t) によって決定される線形な方法での作用に依存し、不確かさをモデル化する 1-準ガウス雑音 ηt にも影響される。 0.70
To make good decisions, the agent needs to learn θσ(t) under the influence of uncertainty. よい判断を下すには、エージェントは不確実性の影響下でθσ(t)を学ぶ必要がある。 0.61
This decisionmaking model is also known as linear bandits [25]. この決定モデルは線形帯域[25]とも呼ばれる。 0.72
Note that the coefficient θσ(t) is time-varying, and σ(t) is the switching signal. θσ(t) は時間変化であり、σ(t) はスイッチング信号である。 0.64
For simplicity, we assume that each task is played for N rounds, i.e., σ(t) changes its value after every N rounds. 単純性のために、各タスクは N ラウンドで、すなわち σ(t) は N ラウンド毎に値を変更すると仮定する。 0.69
Further, we assume that the agent plays S tasks in total, and denote S = {θ1, θ2, . . . , θS} as the task sequence. さらに、エージェントがSのタスクを総じて実行し、S = {θ1, θ2, . . . , θS} をタスクシーケンスとして表すと仮定する。 0.85
To model the context changes that underlie real-world tasks like the WCST, we assume that θσ(t) takes values from different sets. WCSTのような実世界のタスクの根底にある文脈変化をモデル化するために、θσ(t) が異なる集合から値を取ると仮定する。 0.66
Specifically, we assume there are m 特に m が存在すると仮定します 0.70
Fig. 2. Sequential decision-making scenario with contextual changes. 図2。 コンテキスト変更を伴う逐次的な意思決定シナリオ。 0.60
Tasks are taken from distinct sets in sequence. タスクは順序の異なるセットから取り出されます。 0.73
The tasks in each set share a lowdimensional representation. 各集合のタスクは低次元表現を共有する。 0.75
The length of each subsequence is unknown. sets S1,S2, . . . ,Sm from which θσ(t) takes values in sequence. 各列の長さは不明。 S1,S2, . . . . ,Sm をセットし、θσ(t) が順序で値を取る。 0.69
In each Sk, there are nk (nk can be infinite) tasks , and we assume that they share a common θk 1 , . . . , . . . , θk nk linear feature extractor. 各 Sk には nk (nk は無限である) のタスクがあり、共通の θk 1 , . . . . . . . , θk nk の線型特徴抽出器を共有すると仮定する。 0.82
Different sets have different feature extractors. 異なる集合には異なる特徴抽出器がある。 0.64
Specifically, there is Bk ∈ Rd×ri with orthonori ∈ Rri so that mal vectors such that for any θk i (see Fig 2). 具体的には、正則 ∈ Rri を持つ Bk ∈ Rd×ri が存在し、任意の θk i に対して有理ベクトルとなる(図 2 参照)。 0.79
For simplicity, we assume that all i = Bkαk θk the extractors have the same dimension r, i.e., ri = r for all i. 単純性については、すべての i = Bkαk θk がすべての i に対して同じ次元 r,すなわち ri = r を持つと仮定する。 0.70
Here, each of these mutually different matrices B1, . . . , Bm are also referred to as a linear representation [26] for the tasks in the respective set. ここで、これらの互いに異なる行列 B1, . . . . , Bm は、各集合のタスクに対する線型表現 [26] としても言及される。 0.79
i there exists αk As for real-world problems like the WCST, Bk describes the low-dimensional information that participants can abstract. αkが存在する WCSTのような現実世界の問題に関して、Bkは参加者が抽象化できる低次元情報を記述している。 0.61
For different contexts, participants usually need to abstract distinct low-dimensional features. 異なる文脈では、参加者は通常、異なる低次元の特徴を抽象化する必要がある。 0.48
Similar to the WCST in which participants do not know when the sorting rule changes, we further assume that the agent is not informed when θσ(t) starts to take values from a different task set. 参加者がソート規則がいつ変化するかを知らないWCSTと同様に、θσ(t) が別のタスク集合から値を取り始めると、エージェントが知らせられなくなると仮定する。 0.77
Denote τk, k = 1, . . . , m, as the unknown number of sequential tasks that θσ(t) takes from Sk. τk, k = 1 . . . . . . , m を θσ(t) が sk から取る逐次タスクの未知数として表す。 0.74
we introduce the regret RSN =(cid:80)SN 後悔のrsn =(cid:80)snを紹介する。 0.62
The agent’s goal is to maximize the cumulative reward over the course of SN rounds. エージェントの目標は、SNラウンドにおける累積報酬を最大化することです。 0.66
To measure the performance, t=1(x∗t −xt)(cid:62)θs(t), where x∗t is the optimal action that maximizes the reward at round t. 性能を測定するために t=1(x∗t −xt)(cid:62)θs(t) ここで x∗t は円 t における報酬を最大化する最適作用である。 0.71
Given θ, denote g(θ) = arg max x∈A x(cid:62)θ, and then x∗t = g(θs(t)). θ が与えられると、g(θ) = arg max xبa x(cid:62)θ となり、x∗t = g(θs(t)) となる。 0.80
The agent’s objective is then equivalent to minimizing the regret RSN . エージェントの目的は、後悔するRSNを最小化することと等価である。 0.64
We next make some standard assumptions on the action set A and the task coefficients following existing studies (e g , see [27], [28]), which are considered to be satisfied throughout the remainder of this paper. 次に、本論文の残りの部分で満足していると考えられるアクションセットAと既存の研究に続くタスク係数(例: [27], [28])について、いくつかの標準的な仮定を行う。 0.84
Assumption 2.1: We assume that: 仮定 2.1: 私たちは 0.83
(a) the action set A is a unit ball centered at the origin, i.e., A := {x ∈ Rd : (cid:107)x(cid:107) ≤ 1}, and a) 作用集合 A は原点を中心とする単位球、すなわち A := {x ∈ Rd : (cid:107)x(cid:107) ≤ 1} である。 0.78
(b) there are positive constants φmin and φmax so that φmin ≤ (cid:107)θs(cid:107) ≤ φmax for all s ∈ {1, 2, . . . , S}. b) 正の定数 φmin と φmax が存在し、すべての s ∈ {1, 2, . , S} に対して φmin ≤ (cid:107)θs(cid:107) ≤ φmax となる。 0.85
Inspired by humans’ strategy, we seek to equip the agent with the ability to learn and exploit representations and to quickly adjust to contextual changes so that it can perform well even in complex environments with context changes. 人間の戦略にインスパイアされた我々は、エージェントに表現を学習し、活用する能力を与え、文脈変化を伴う複雑な環境でもうまく機能するように、文脈変化に迅速に適応できるようにする。 0.70
III. ADAPTIVE REPRESENTATION LEARNING III。 適応型表現学習 0.62
In this section, we present our main results. 本稿では,本研究の主な成果を紹介する。 0.66
We first analytically demonstrate why representation learning is beneficial especially for complex tasks that have high dimensions. まず,表現学習が特に高次元の複雑なタスクに有用である理由を解析的に示す。 0.72
Second, we propose a strategy to explore and transfer the representation under the setting of sequential tasks. 第2に、逐次タスクの設定の下で表現を探索し、転送する戦略を提案する。 0.69
Finally, we present our main algorithm that has the ability to adjust to contextual changes. 最後に,文脈変化に適応できる主アルゴリズムを提案する。 0.49
Task setsTask sequenceRepresentati ons task settask シーケンス表現 0.80
英語(論文から抽出)日本語訳スコア
A. Benefits of representation learning A.表現学習のメリット 0.81
To demonstrate the benefits of representation learning, we 表現学習の利点を示すために 0.57
first restrict our attention to a single-task model まず シングルタスクモデルに注意を向けます 0.66
yt = x(cid:62)t θ + ηt, yt = x(cid:62)t θ + ηt, 0.47
(2) √ N ). (2) √ n)であった。 0.44
E RN = Ω(r E RN = Ω(r) 0.47
√ E RN = Ω(d e rn = ω(d) である。 0.44
where the task θ is played for N times. ここで θ は N 回再生される。 0.56
For this classical model, existing studies have established the lower bound for its regret [25], [27], presented in the next lemma. この古典的モデルのために、既存の研究は、次の補題で示される後悔[25],[27]の下位境界を確立した。 0.70
Lemma 3.1 (Classical Lower Bound): Let P be the set of all policies, and I be the set of all the possible tasks. Lemma 3.1 (古典的下界): P をすべてのポリシーの集合とし、私はすべての可能なタスクの集合とする。 0.78
Then, for any d ∈ Z+ and N > d2, the regret RN for the task (2) (cid:52) satisfies infP sup I This lemma indicates that there is a constant c > 0 such √ that the expected regret incurred by any policy is no less than N for any d ∈ Z+ and N > d2. すると、任意の d ∈ Z+ および N > d2 に対して、タスク (2) (cid:52) に対する後悔 RN は infP sup I を満たす。
訳抜け防止モード: すると、任意の d ∈ Z+ と N > d2 に対して。 タスク ( 2 ) ( cid:52 ) に対する後悔 RN は infP sup I を満たす。 この補題は、任意のポリシーによって生じる予想された後悔が任意の d ∈ Z+ および N > d2 に対して N に満たないような定数 c > 0 が存在することを示している。
0.75
Next, we show how cd some additional information on θ affects this lower bound. 次に、この下界にθに関する追加情報がどのように影響するかを示す。 0.65
Lemma 3.2 (Lower Bound with a Representation): Suppose there is a known matrix B ∈ Rd×r with r < d such that θ = Bα for some α ∈ Rr. Lemma 3.2 (Lwer Bound with a Representation):ある α ∈ Rr に対して θ = Bα となるような r < d を持つ既知の行列 B ∈ Rd×r が存在すると仮定する。 0.84
Let P be the set of all policies, and I be the set of all the possible tasks. P をすべてのポリシーの集合とし、私はすべての可能なタスクの集合とする。 0.75
Then, for any d ∈ Z+ and N > d2, the regret RN for the task (2) (cid:52) satisfies infP sup I Proof: Let zt = B(cid:62)xt, and then the model in (2) becomes yt = z(cid:62)t α + ηt. すると、任意の d ∈ Z+ および N > d2 に対して、タスク (2) (cid:52) に対する後悔 RN は infP sup I Proof を満たす: zt = B(cid:62)xt とし、(2) のモデルは yt = z(cid:62)t α + ηt となる。 0.89
As a consequence, the problem becomes to deal with a task with dimension r instead of d. 結果として、問題は d の代わりに次元 r のタスクを扱うようになる。 0.71
Following similar steps as in [27], it can be shown that the E RN = √ minimax lower bound for the regret is infP sup I Ω(r Comparing Lemma 3.2 with Lemma 3.1, one finds that the regret lower bound decreases dramatically if r (cid:28) d. 27] でも同様な手順をとれば、後悔に対する e rn = s minimax lowerbound が infp sup i ω(r で補題 3.2 と補題 3.1 を比較すると、後悔の下限は r (cid:28) d で劇的に減少することが分かる。
訳抜け防止モード: 27 ] と同様のステップに従って、後悔に対する E RN = > minimax の下限は infP sup I Ω(r) であり、Lemma 3.2 と Lemma 3.1 を比較することができる。 r ( cid:28 ) d の場合、後悔の低い境界は劇的に減少する。
0.75
This is because, with the knowledge of the representation B ∈ Rd×r, one does not need to explore the entire Rd space to learn the task coefficient θ for decision-making. これは、B ∈ Rd×r の表現の知識により、決定のためのタスク係数 θ を学ぶために Rd 空間全体を探索する必要はないからである。 0.78
Instead, one only needs to learn α by exploring a much lowerdimensional subspace span(B) and estimate θ by ˆθ = B ˆα. 代わりに、より低次元の部分空間 span(b) を探索し、θ = b で θ を推定することで α を学習するだけでよい。 0.73
As a consequence, θ can be learned much more efficiently, which helps the agent make better decisions at earlier stages. その結果、θはより効率的に学習でき、エージェントがより早い段階でより良い決定を下すのに役立つ。 0.73
Yet, such a representation B is typically unknown beforehand. しかし、そのような表現 B は、通常以前には未知である。 0.62
The agent usually needs to estimate B from its experiences before utilizing it. エージェントは通常、使用前に経験からbを見積もる必要がある。 0.76
In the next subsection, we show how to explore and transfer the representation in the setting of sequential tasks. 次の節では、逐次タスクの設定における表現の探索と転送の仕方を示す。 0.65
B. Representation learning in sequential tasks B.シーケンシャルタスクにおける表現学習 0.79
N ), which completes the proof. これは証明を完了させる。 0.38
N ). Representation learning in the setting of sequential tasks is challenging, particularly when the agent has no knowledge of the number of sequential tasks that share the same representation. n)であった。 シーケンシャルタスクの設定における表現学習は、特にエージェントが同じ表現を共有するシーケンシャルタスクの数について知識を持っていない場合、困難である。 0.61
There is a trade-off between the need to explore more tasks to construct a more accurate estimate of the underlying representation and the incentive to exploit the learned representation for more efficient learning and higher instant rewards. 基礎となる表現をより正確に見積もるためにより多くのタスクを検討する必要性と、学習した表現を利用してより効率的な学習とより高い即時報酬を得るインセンティブとの間にはトレードオフがある。 0.67
To investigate how to balance the trade-off, we consider that the agent plays τ tasks in sequence, i.e., T = {θ1, θ2, . . . , θτ}, without knowing the number of tasks τ. トレードオフのバランスをとるために、エージェントは τ の数を知らずに T = {θ1, θ2, . . . . , θτ} という順序で τ のタスクを実行すると考える。
訳抜け防止モード: 取引のバランスをとる方法を調査する - オフ。 我々はエージェントが τ タスクを 順番に実行していると考えます T = { θ1, θ2, . . ., θτ }, τのタスクの数を知らずに。
0.84
There is an unknown matrix B ∈ Rd×r such that for any 未知の行列 B ∈ Rd×r が存在し、任意の行列に対して 0.71
Algorithm 1 Representation Exploration (RE) N(cid:101) アルゴリズム1 表現探索(RE)N(cid:101) 0.85
√ Input: Horizon N, exploration length N1 = (cid:100)d for t = 1 : N1 do compute ˆθ = (XreX(cid:62) Yre = [y1, . . . , yN1 ](cid:62); for t = N1 + 1 : N do 入力:Horizon N, exploration length N1 = (cid:100)d for t = 1 : N1 do compute >θ = (XreX(cid:62) Yre = [y1, . , yN1 ] (cid:62); for t = N1 + 1 : N do.
訳抜け防止モード: t = 1 : n1 に対する探索長さ n1 = (cid:100)d は、計算 sθ = ( xrex(cid:62 ) yre = [ y1, ..., である。 yn1 ] (cid:62 ) ; for t = n1 + 1 : n do
0.84
take xt = ai, i = (t − 1 mod d) + 1, where [a1, . . . , ad] is any orthonormal basis of Rd; re)−1XreYre, where Xre = [x1, . . . , xN1 ], xt = ai, i = (t − 1 mod d) + 1 ここで [a1, . . . . , ad] は任意の正規直交基底 rd; re)−1xreyre であり、ここで xre = [x1, . . , xn1 ] である。 0.87
take xt = arg max x∈A x(cid:62) ˆθ xt = arg max xبa x(cid:62) を取ろう。 0.63
Algorithm 2 Representation Transfer (RT) アルゴリズム2 表現転送(rt) 0.71
√ Input: Horizon N, ˆB ∈ Rd×r, exploration length N2 = (cid:100)r take xi = a(cid:48) for t = 1 : N2 do [a(cid:48) 1, . . . , a(cid:48) compute ˆα = ( ˆB(cid:62)XrtX(cid:62 ) Xrt = [x1, x2, . . . , xN2 ] and Yrt = [y1, y2, . . . , yN2 ](cid:62); take xt = arg max x∈A x(cid:62) ˆθ for t = N2 + 1 : N do √ 入力:Horizon N, >B ∈ Rd×r, exploration length N2 = (cid:100)r take xi = a(cid:48) for t = 1 : N2 do [a(cid:48) 1, . . . , a(cid:48) compute >α = ( .B(cid:62)XrtX(cid:6 2) Xrt = [x1, x2, . . . , xN2 ] and Yrt = [y1, y2, . . , yN2 ](cid:62); take xt = arg max xA(cid:62) θ = 1 + Nt + Nt = 1 : Nt = 1 : Nt = θ
訳抜け防止モード: √ 入力 : 地平線 n, ...b ∈ rd×r, 探索長 n2 = (cid:100)r は t = 1 : n2 do [ a(cid:48 ) 1 に対して xi = a(cid:48 ) を取る。 xrt = [ x1, x2, . . , xn2 ]. . . . . . . . . . . . . . . . . . (cid:48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . (cid:62)xrtx(cid:62 ) xrt = [ x1, x2, xn2 ]. yrt = [ y1 , y2 , . . , yn2 ] ( cid:62 ) ; take xt = arg max xبa x(cid:62 ) \θ for t = n2 + 1 : n do
0.49
N(cid:101) i, i = (t − 1 mod r) + 1, where N(cid:101) i, i = (t − 1 mod r) + 1 ここでは 0.92
r] is any orthonormal basis of span( ˆB); ˆB)−1 ˆB(cid:62)XrtYrt and ˆθ = ˆB ˆα, where r] はスパンの任意の正規直交基底であり、 (B) − (B)−1 (B(cid:62)XrtYrt および (B)XrtYrt である。 0.62
rt i it holds that θi = Bαi for some αi ∈ Rr. rt ある αi ∈ Rr に対して θi = Bαi となる。 0.60
In this setting we aim to find a representation learning policy for each task subsequence in Fig 2, i.e., a within-context policy. この設定では、各タスクサブシーケンスの表現学習ポリシーを図2、すなわちコンテキスト内ポリシで見つけることを目的としています。 0.67
1) RE algorithm. 1)REアルゴリズム。 0.72
RE, shown in Algorithm 1, reはアルゴリズム1で示される。 0.66
We propose an algorithm, the sequential representation learning algorithm (SeqRepL, see Algorithm 3), that alternates between two sub-algorithms – representation exploration (RE) and representation transfer (RT) algorithms. 本稿では,表現探索 (RE) と表現伝達 (RT) の2つのサブアルゴリズムを交互に行うアルゴリズム,シーケンシャル表現学習アルゴリズム (SeqRepL, See Algorithm 3) を提案する。 0.86
Let us first elaborate on these two sub-algorithms, respectively. まず、これらの2つのサブアルゴリズムについて詳しく説明しましょう。 0.55
is an explore-then-commit (ETC) algorithm, which contains two phases: exploration and commitment, consisting of N1 and N − N1 rounds, respectively. Explor-then-commit (ETC)アルゴリズムは、探索とコミットメントの2つのフェーズを含み、それぞれN1とN-1のラウンドで構成されている。 0.68
The central goal of RE is to construct an accurate ˆθi for each task so that the collection of ˆθi’s can recover an accurate representation ˆB (which will be shown soon). RE の中心的な目的は、各タスクに対して正確な sθi を構築して sθi の集合が正確な表現 sB を復元できるようにすることである。 0.73
Meanwhile, we want to ensure that √ the algorithm does not incur too much regret. 一方、アルゴリズムがあまり後悔しないようにしたいと思っています。 0.57
To strike the balance, we set the exploration length N1 = (cid:100)d N(cid:101). バランスをとるために、探索距離 N1 = (cid:100)d N(cid:101) を設定した。 0.71
The exploration phase is accomplished on the entire Rd space, in which d linearly independent actions are repeatedly taken in sequence. 探索フェーズはRd空間全体において達成され、d線型独立な動作が連続的に繰り返される。 0.76
Then, θ is estimated by the least-square regression ˆθ = (XreX(cid:62)re)−1XreYre, where Xre = [x1, . . . , xN1], Yre = [y1, . . . , yN1 ](cid:62). すると θ は最小二乗回帰 (XreX(cid:62)re)−1XreYre によって推定され、Xre = [x1, . , xN1], Yre = [y1, . , yN1 ] (cid:62) となる。 0.91
In the commitment phase, the greedy action √ x(cid:62) ˆθ is taken. コミットメントフェーズでは、欲求作用 > x(cid:62) >θ が取られる。 0.65
Note that the choice of xt = arg max x∈A N1 ensures that the upper bound of RE is O(d N ), which matches the lower bound in Lemma 3.1. xt = arg max x∂A N1 の選択は、RE の上界が O(d N ) であることを保証する。
訳抜け防止モード: xt = arg max x∂A N1 の選択は、それを確実にする。 RE の上界は O(d N ) であり、Lemma 3.1 の下界と一致する。
0.65
The proof follows similar steps as those for Theorem 3.1 in [27]. この証明は[27] の Theorem 3.1 と同様の手順に従う。 0.79
2) RT algorithm. 2) rtアルゴリズム。 0.67
RT, shown in Algorithm 2, is also an ETC algorithm. アルゴリズム2で示されているRTもETCアルゴリズムである。 0.65
Its key feature is the utilization of ˆB. 主な特徴は、bの使用である。 0.73
Thanks to ˆB, the exploration phase of RT is just carried out in the rdimensional subspace span( ˆB). B のおかげで、RT の探索位相は r 次元部分空間スパン(英語版) においてのみ実行される。 0.59
Consequently, much fewer N(cid:101) rather than exploration rounds are required (N2 = (cid:100)r √ (cid:100)d N(cid:101)). したがって、探索ラウンドよりもはるかに少ないN(cid:101)が要求される(N2 = (cid:100)r > (cid:100)d N(cid:101))。 0.72
In the exploration phase, r linear independently actions in span( ˆB) are repeatedly taken before the N2 rounds are exhausted. 探査段階では、N2ラウンドが排出される前に、スパン中のrリニア独立作用が繰り返し取られる。 0.60
Unlike RE wherein ˆθ is directly constructed, RT first estimates α by the least-square regression ˆα = ( ˆB(cid:62)XrtX(cid:62 )rt ˆB)−1 ˆB(cid:62)XrtYrt with Xrt = [x1, x2, . . . , xN2 ] and Yrt = [y1, y2, . . . , yN2](cid:62), and then recovers θ by ˆB ˆα. re wherein sθ が直接構築されるのとは異なり、rt は α を最小二乗回帰 (cid:62)xrtx(cid:62) rt sb)−1 sb(cid:62)xrtyrt with xrt = [x1, x2, . . , xn2 ] and yrt = [y1, y2, . . , yn2](cid:62) で推定し、次に θ を sb sα で復元する。 0.78
With a perfect estimate ˆB = B, RT can achieve a regret N ). B = B の完全推定では、RT は後悔 N を達成できる。 0.61
This can be proven straightupper bounded by O(r forwardly since the original model can be rewritten into a r-dimensional one yt = z(cid:62)t α + ηt by letting zt = ˆB(cid:62)xt. これは O(r) によって前方に有界であることが証明できる、なぜなら元のモデルが r-次元の 1 yt = z(cid:62)t α + ηt に書き換えられるからである。 0.71
√ √ √ √ 0.42
英語(論文から抽出)日本語訳スコア
√ √ d/N 1 (cid:107)F ). √ √ d/N 1 (cid:107)f)。 0.50
N ) in Lemma 3.1 if ε < N ) in Lemma 3.1 if ε < 0.48
Yet, constructing a perfect ˆB is usually impossible given the noisy environment. しかし、うるさい環境を考えると、完全アーベルの構成は通常不可能である。 0.57
The next theorem provides an upper bound for the regret of RT when there is some error between ˆB and B. Theorem 3.3 (Upper Bound Given an Estimated Representation): Assume that an estimate ˆB of the true represen(cid:107)F ≤ ε. 次の定理は、rt の後悔に対する上限を与えるものである。定理 3.3 の定理は、真のレプレンゼン(cid:107)f ≤ ε の見積りを仮定する。
訳抜け防止モード: 次の定理は、RT の後悔に対する上限を与える。 B と B の間にいくつかの誤りがある。 Theorem 3.3 (上界に推定表現が与えられた) : 真のreresen(cid:107)F ≤ ε の見積もり εB を仮定する。
0.72
If the agent plays the task tation B satisfies (cid:107) ˆB(cid:62)B⊥ described by Eq (2) for N rounds using Algorithm 2 with N + N ε2). エージェントがタスク tation b を実行すると、アルゴリズム 2 と n + n ε2) を用いて n ラウンド n に対して eq (2) で記述されたタスク tation b が満たされる(cid:107)。 0.71
(cid:52) ˆB, then the regret satisfies E RN = O(r √ The upper bound in Theorem 3.3 is less than the lower bound Ω(d 4 . (cid:52) >B ならば、後悔は E RN = O(r ) を満たす。 Theorem 3.3 の上界は下界 Ω(d 4 ) より小さい。 0.76
This implies that the knowledge of an imperfect estimate of the representation improves the performance as long as it is sufficiently accurate (i.e., small (cid:107) ˆB(cid:62)B⊥ Proof of Theorem 3.3: Since θ = Bα, then the model becomes yt = x(cid:62)t Bα + ηt. このことは、表現の不完全推定の知識が十分正確である限り、性能を改善することを意味する(すなわち、小 (cid:107) >B(cid:62) ^ Theorem 3.3: θ = Bα であるから、モデルは yt = x(cid:62)t Bα + ηt となる。 0.80
From Algorithm 2, it holds that ˆα = ( ˆB(cid:62)XrtX(cid:62 )rt loss of generality, we assume N2 is a multiple of r. アルゴリズム 2 から、n2 が r の倍数であると仮定すると、n は一般性を失うと仮定する: > α = ( >B(cid:62)XrtX(cid:62 )rt である。
訳抜け防止モード: アルゴリズム2では、α = ( )b(cid:62)xrtx(cid:6 2)rt は一般性を失う。 n2 は r の倍数であると仮定する。
0.80
Then, it can be r AA(cid:62) with A = [a(cid:48)1, . . . , a(cid:48)r], calculated that XrtX(cid:62)rt = N2 A = [a(cid:48)1, . , a(cid:48)r] で r AA(cid:62) とすると、XrtX(cid:62)rt = N2 となる。 0.89
ˆB(cid:62)AA(cid:62) ˆB/r(cid:1)−1N2 ˆB(cid:62)AA(cid:62) ˆB/r(cid:1)−1N2 (cid:123)(cid:122) ˆB(cid:62)AA(cid:62) ˆB/r(cid:1)−1 ˆB(cid:62)Xη (cid:125) b(cid:62)aa(cid:62) sb/r(cid:1)−1n2 sb(cid:62)aa(cid:62) sb/r(cid:1)−1n2(cid:123)(cid:122 ) sb(cid:62)aa(cid:62) sb/r(cid:1)−1 sb(cid:62)xη(cid:125) 0.30
ˆB(cid:62)AA(cid:62) ˆB/r(cid:1)−1 ˆB(cid:62)XrtYrt. b(cid:62)aa(cid:62) sb/r(cid:1)−1 sb(cid:62)xrtyrt である。 0.59
then we have ˆα = (cid:0)N2 we have ˆα = (cid:0)N2 ˆB(cid:62)AA(cid:62) ˆB(cid:1)−1 ˆB(cid:62)Xrtη. すると、>α = (cid:0)N2 となると、>α = (cid:0)N2 >B(cid:62)AA(cid:62) >B(cid:1)−1 >B(cid:62)Xrtη となる。 0.59
As ˆθ = ˆB ˆα and θ = Bα, it (cid:0) N2 ˆB ˆα − Bα = ˆB(cid:0)N2 (cid:124) (cid:125) + ˆB(cid:0)N2 (cid:124) Then, it holds that E(cid:104)(cid:107)ˆθ(c) − θ(cid:107)2(cid:105) ≤ E(cid:107)s1(cid:107 )2 + E(cid:107)s2(cid:107 )2 and E(cid:107)s2(cid:107 )2, we have E(cid:104)(cid:107)ˆθ − θ(cid:107)2(cid:105) ≤ r/ その後、E(cid:104)(cid:107) = θ(cid:107)2(cid:107) ≤ E(cid:107)s1(cid:107 )2 + E(cid:107)s2(cid:107 )2 and E(cid:107)s2(cid:107 )s2(cid:107)2 and E(cid:107)s2(cid:107 )2, we(cid:104(cid:107)N 2(cid:107)N2(cid:124 ))
訳抜け防止モード: シド:0 ) n2(シド:0) n2(シド:0)n2(シド:124 ) (シド:125 ) + ジブ(シド:0)n2 (シド:124 ) である。 e(cid:104)(cid:107) θ(c ) − θ(cid:107)2(cid:105 ) ≤ e(cid:107)s1(cid:107 )2 + e(cid:107)s2(cid:107 )2 および e(cid:107)s2(cid:107 )2 である。 e(cid:104)(cid:107) θ − θ(cid:107)2(cid:105 ) ≤ r/ である。
0.75
since ηt is an independent random variable with zero mean. ηtは平均ゼロの独立確率変数なので 0.73
It can be derived (more details can be found in the extended version of this paper [29]) that E(cid:107)s1(cid:107 )2 ≤ 2cφ2 √ maxε2 for some constant c and E(cid:107)s2(cid:107 )2 ≤ r/ N. Combining E(cid:107)s1(cid:107 )2 maxε2. この論文(29])の拡張版では、ある定数 c に対して e(cid:107)s1(cid:107 )2 ≤ 2cφ2 を、e(cid:107)s2(cid:107 )2 ≤ r/n に対して e(cid:107)s1(cid:107 )2 maxε2 を導出することができる。 0.82
As Yrt = X(cid:62)rtBα + η with η = [η1, . . . , ηN2](cid:62), ˆB(cid:62)AA(cid:62)B α/r + Yrt = X(cid:62)rtBα + η with η = [η1, . . , ηN2](cid:62), >B(cid:62)AA(cid:62)B α/r +
訳抜け防止モード: yrt = x(cid:62)rtbα + η で η = [ η1, ...) とすると、yrt = x(cid:62)rtbα + η となる。 . ηn2](cid:62 ) , sb(cid:62)aa(cid:62) bα / r +
0.53
ˆB(cid:62)AA(cid:62)B α/r − Bα シュB(cid:62)AA(cid:62)B α/r − Bα 0.31
ˆB)−1 ˆB(cid:62)XrtYrt. XrtYrt (複数形 XrtYrts または XrtYrts) 0.30
Without follows that N + 2cφ2 無し 続いて N + 2cφ2 0.49
(cid:123)(cid:122) (cid:123)(cid:122) 0.37
√ s1 s2 . r √ s1 s2 . r 0.41
From [27], it follows that 27]から次の通りである。 0.67
E[max x∈A E (複数形 Es) 0.34
x(cid:62)θ − max x∈A √ ≤ J ˆr φmin x(cid:62)θ − max xبa が成立する。 0.70
x(cid:62) ˆθ] x(cid:62) シュθ] 0.76
1 N + 2 Jφ2 1 N + 2 Jφ2 0.39
φmin (cid:16) φmin (出典:16) 0.53
max(1 + µ)ε2. 最大値(1 + μ)ε2。 0.43
(cid:17) maxx∈A x(cid:62)θ − E maxx∈A x(cid:62) ˆθ (cid:17) maxxjavaa x(cid:62)θ − e maxxjavaa x(cid:62) ]θ 0.35
(3) For the commitment phase, there are N − N2 steps. (3) コミットメントフェーズには N − N2 ステップがある。 0.66
Thus, regret satisfies E RN ≤ N2φmax + (N − the overall . したがって、後悔は E RN ≤ N2φmax + (N − the overall .) を満たす。 0.67
Substituting Eq (3) √ N2) into the right-hand side we obtain E RN ≤ O(ˆr N + N ε2), (cid:4) which completes the proof. 右辺に Eq (3) {\displaystyle Eq}} を置換すると、 E RN ≤ O(\r N + N ε2), (cid:4) が得られる。
訳抜け防止モード: 右辺に Eq ( 3 ) シュ N2 ) を置換すると、E RN ≤ O(n + N ε2 ) が得られる。 (cid:4) は証明を完成させる。
0.82
the main algorithm in this subsection, which performs sequential representation learning (SeqRepL). このサブセクションの主なアルゴリズムは、シーケンシャルな表現学習(SeqRepL)を実行する。 0.85
It operates in a cyclic manner, alternating between RE and RT (see Algorithm 3). REとRTの交互に循環的に動作する(アルゴリズム3参照)。 0.62
In each cycle, there are two phases. 各サイクルには2つのフェーズがある。 0.73
In the RE phase of the nth cycle, L tasks are played using RE. nサイクルの再フェーズでは、lタスクはreを使って再生される。 0.61
Then, the representation ˆθ(cid:62)i , where ˆθi’s are the learned coefficients in all the previous n RE phases. このとき、表現 sθ(cid:62)i は、前回の全てのn re 相における学習係数である。 0.72
Then, are estimated. そしたら 推定される。 0.62
Specifically, let ˆP =(cid:80) ˆθi 具体的には、>P =(cid:80) >θi とする。 0.43
3) SeqRepL algorithm. 3)SeqRepLアルゴリズム。 0.76
Let us now present 今、お会いしましょう 0.54
Input: Sτ = {θ1, . . . , θτ}, L = c1r, ˆP = 0d×d for each cycle n: 入力: sτ = {θ1, . . , θτ}, l = c1r, \p = 0d×d の各サイクル n: 0.89
Algorithm 3 Sequential Representation Learning (SeqRepL) Initialize: n = 1; RE phase: play L tasks in Sτ using RE algorithm, ˆP = ˆP + ˆθi ˆθ(cid:62) i , RT phase: play nL tasks in Sτ using RT algorithm with latest ˆB; アルゴリズム3 逐次表現学習(SeqRepL) 初期化: n = 1; RE フェーズ: RE アルゴリズムを用いて Sτ の L タスクを再生する、i , RT フェーズ: RT アルゴリズムを使って Sτ の nL タスクを再生する。 0.71
ˆB ← top r singular vector of ˆP ; p ; の位相 r 特異ベクトル。 0.43
update n = n + 1. n = n + 1 を更新する。 0.83
ˆB is constructed by performing singular value decomposition (SVD) to ˆP in the following way: b は、次の方法で特異値分解 (svd) を p に実行して構成される。 0.64
SVD : ˆP = [U1, U2]ΣV SVD : >P = [U1, U2]ΣV 0.42
−→ ˆB = U1, b = u1 である。 0.60
where the columns of U1 ∈ Rd×r are the singular vectors that are associated with the r-largest singular values of ˆP . ここで、U1 ∈ Rd×r の列は R の r 最大の特異値に関連付けられた特異ベクトルである。 0.77
In the RT phase, nL tasks are played using RT with the estimated ˆB. RT の段階では、nL のタスクは RT を用いて、推定値=B でプレイされる。 0.60
Notice that L more tasks are played using RT in each cycle than the previous one. 各サイクルでL以上のタスクがRTを使ってプレイされていることに注意してください。 0.59
This alternating scheme balances representation exploration and transfer well. この交互スキームは、表現探索と移動をうまくバランスさせる。 0.46
. N √ √ (cid:17) . N √ √ (cid:17) 0.42
τ rN + τ r τ rN + τ r 0.42
for SeqRepL. Next, we make an assumption and provide an upper bound Assumption 3.4: For the task sequence T = {θ1, . . . , θτ}, there exists L = c1r for some constant suppose that c1 > 0 such that any subsequence of length L in T satisfies σr(WsW (cid:62)s ) ≥ ν > 0 for any s, where Ws = [θs+1, . . . , θs+(cid:96)] and σr(·) denote the rth largest singular (cid:52) value of a matrix. seqrepl用。 タスク列 T = {θ1, . . , θτ} に対して、ある定数の仮定に対して L = c1r が存在して、T における長さ L の任意の部分列が σr(WsW (cid:62)s ) ≥ ν > 0 を満たすとき、Ws = [θs+1, . . . , θs+(cid:96)] および σr(·) は行列の r 番目の最大の特異点(cid:52)値を表す。 0.64
This assumption states that the sequential tasks covers all the directions of the r-dimensional subspace span(B), which ensures that B can be recovered in a sequential fashion. この仮定は、シーケンシャルタスクが r-次元部分空間スパン(B) のすべての方向をカバーし、B がシーケンシャルな方法で回復できることを保証している。 0.73
Theorem 3.5 (Upper Bound of SeqRepL): Let the agent play a series of tasks {θ1, θ2, . . . , θτ} using SeqRepL in (cid:16) Algorithm 3, where τ > r2. Theorem 3.5 (SeqRepLのアップパーバウンド): τ > r2 である (cid:16) Algorithm 3 における SeqRepL を用いて、エージェントが一連のタスク {θ1, θ2, . . , θτ} をプレイする。 0.85
Suppose that Assumption 3.4 is satisfied, then the regret, denoted by Rτ N , satisfies E Rτ N = (cid:52) ˜O d Note that if one uses a standard algorithm, e g , a UCB algorithm [25] or a PEGE algorithm [27], to play the sequence of tasks without learning the representation, the optimal regret would be Θ(τ d N ). 仮定 3.4 が満たされ、Rτ N で表される後悔が E Rτ N = (cid:52) >O d を満たすと仮定すると、標準的なアルゴリズム eg, UCB アルゴリズム [25] または PEGE アルゴリズム [27] を用いて表現を学習せずにタスクの列を再生すると、最適の後悔は (τ d N ) となる。 0.81
This bound is always larger than the two terms in our bound since τ > r2. この境界は、τ > r2 以来、我々の境界の2つの項よりも常に大きい。 0.62
This indicates that our algorithm outperforms the standard algorithms that do not learn the representations. これは,表現を学習しない標準的なアルゴリズムよりも優れていることを示す。 0.63
Proof of Theorem 3.5: After the RE phase of nth cycle in the SeqRepL algorithm, it can be derived (more details can be (cid:16) d found in the extended version of this paper [29]) that the estimate ˆB and the true representation B satisfy (cid:107) ˆB(cid:62)B⊥ (cid:107)F = ˜O . 定理の証明 3.5: seqrepl アルゴリズムにおける n サイクルの再位相の後、(より詳しくは (cid:16) d が本論文の拡張版 (29]) で見いだされるように、推定された b と真の表現 b が (cid:107) の (cid:62)b を満たすことを導出することができる(cid:107)f は (cid:107)f である)。
訳抜け防止モード: 定理3.5の証明 : SeqRepLアルゴリズムにおけるn次サイクルのRE相の後 導出できる(詳細は ( cid:16 ) d で、この論文[29 ] の延長版にある) 推定 B と真表現 B は (cid:107 ) > B(cid:62)B) (cid:107)F = >O を満たす。
0.77
The regret incurred in this phase of the √ nth cycle, denoted by RRE(n), satisfies RRE = O(Ld N ) Then, nL tasks are played in sequence utilizing the RT algorithm with input ˆB. rre(n) と表記され、rre = o(ld n ) を満たす nth サイクルのこのフェーズで生じる後悔は、rt アルゴリズムと入力 sb を用いて逐次演奏される。
訳抜け防止モード: 後悔は第n周期のこの段階に生じた。 RRE(n ) と表され、RRE = O(Ld N ) を満たす。 nL タスクは RT アルゴリズムを用いてシーケンスで実行される。
0.64
It follows from Lemma 3.3 that the regret in the RT phase of the nth cycle, denoted as RRT(n), satisfies E RRT(n) (cid:46) nLr √ N + d in the sequence of length τ since L ¯L + L ¯L( ¯L + 1)/2 ≥ τ. Lemma 3.3 から従えば、n 次サイクルの RT 相における後悔は RRT(n) と表され、長さ τ の列において E RRT(n) (cid:46) nLr > N + d を満たす。 0.63
Summing up the regret in Phases 1 and 2 in every cycle, we 段階1と段階2の後悔を サイクルごとにまとめると 0.65
N ). Observe that there are at most ¯L = (cid:100)(cid:112)2τ /L(cid:101) cycles n)であった。 L = (cid:100)(cid:112)2τ /L(cid:101) サイクルが最大である。 0.57
(cid:113) 1 (cid:113) 1 0.42
N + nLN d2 ν2 N + nLN d2 ν2 0.44
= ˜O(nLr nLd√N =-o(nlr) ヌルダヌン 0.37
nLd√N (cid:17) ヌルダヌン (cid:17) 0.39
√ √ √ ν 1 √ √ √ ν 1 0.43
英語(論文から抽出)日本語訳スコア
Algorithm 4 Outlier Detection (OD) アルゴリズム4 外乱検出(OD) 0.74
Input: ˆB ∈ Rd×r, nod, generate a random orthonormal matrix Q ∈ R(d−r)×nod , and let M = ˆB⊥Q. 入力: sb ∈ rd×r, nod はランダム正規直交行列 q ∈ r(d−r)×nod を生成し、m = s とする。 0.75
for t = 1, . . . , nod do if Ynod /∈ Cnod then t = 1 ... の場合、nod は ynod /servlet cnod であれば行う。 0.73
xt = δ[M ]t ∈ A, collect yt outlier indicator Iod = 1 xt = δ[M ]t ∈ A, collect yt outlier indicator Iod = 1 0.43
end for end if Algorithm 5 Adaptive Representation Learning (AdaRepL) 終わりだ 終われば アルゴリズム5 適応表現学習(AdaRepL) 0.66
Initialize: nc = 0 (outlier counter), ˆB = Id 初期化: nc = 0 (アウトリーカウンタ) , >B = Id 0.83
do: invoke RE algorithm, P = P + ˆθiθ(cid:62) do: reアルゴリズムを呼び出す、p = p + sθiθ(cid:62) 0.69
Input: kc for θ1, θ2, . . . , θS invoke OD algorithm, return Iod if Iod = 1 do else end if if nc = kc do 入力: θ1, θ2, . . , θs invoke od algorithm, if iod = 1 do else end if nc = kc do なら iod を返す。
訳抜け防止モード: θ1, θ2, の入力 : kc。 θS は OD アルゴリズムを呼び出し、Iod = 1 が終われば Iod = 1 が終われば nc = kc が終われば Iod を返す。
0.83
restart SeqRepL 再起動 seqrepl 0.69
nc = 0, invoke the cyclic SeqRepL nc = 0 で cyclic seqrepl を呼び出す 0.75
end if i , nc = nc + 1 終われば i , nc = nc + 1 0.54
(cid:16) c1 and ¯L = (cid:100)(cid:112)2τ /L(cid:101), then E Rτ N = (cid:80) ¯L N + d(cid:112)τ N /r (cid:16) c1 と sl = (cid:100)(cid:112)2τ /l(cid:101) ならば e rτ n = (cid:80) シュル n + d(cid:112)τ n /r である。 0.71
√ obtain E RN τ (cid:46) ¯LLd √ √ N + ¯Ld ¯LLd √ RRT(n) = ˜O d completes the proof. e rn τ (cid:46) が成立し、その証明が完結する(cid:46)。 0.27
N . Since L = c1r for some constant n=1 RRE(n) + , which (cid:4) です。 ある定数 n=1 RRE(n) + に対して L = c1r であるから、 (cid:4) 0.60
N +(cid:80) ¯L n +(cid:80) シュル 0.81
(cid:17) ≤ N (出典:17)≤ N 0.66
√ N + d n + d である。 0.60
τ rN + τ ri τ rN + τ ri 0.43
N +τ r n +τ r である。 0.49
(cid:16) (cid:17) (出典:16) (cid:17) 0.53
√ m=1 nLr √ m=1。 nLr 0.44
√ √ C. Representation learning with contextual changes √ √ C.文脈変化による表現学習 0.54
Finally, we are ready to address the problem that we set up in Section II, i.e., representation learning in sequential tasks with changing contexts. 最後に,第2節で設定した課題,すなわち文脈の変化を伴う逐次的タスクにおける表現学習に対処する準備が整った。 0.72
In the WCST, humans are able to realize of sorting rule changes quickly. wcstでは、人間がルール変更のソートを迅速に実現できる。 0.62
Inspired by that, we equip our algorithm with the ability to detect context switches, which enables it to adapt to new environments. これにインスパイアされた我々は、新しい環境に適応できるように、コンテキストスイッチを検出する能力をアルゴリズムに装備する。 0.80
As shown in Algorithm 4, the key idea is to take nod probing actions for every new task. アルゴリズム4で示されているように、鍵となるアイデアは、新しいタスクごとにnodプロッピングアクションを取ることである。 0.66
These actions are randomly generated in the perpendicular complement of span( ˆB). これらの作用はスパンの垂直補数においてランダムに生成される。 0.65
Specifically, we generate a random orthonormal matrix Q ∈ R(d−r)×nod. 具体的には、ランダムな正則行列 Q ∈ R(d−r)×nod を生成する。 0.63
The probing actions are taken from the columns of the matrix M = δ ˆB⊥Q, where δ > 0 ensures that the actions are within the action set A. If the current task θ satisfies θ = ˆBα for some α, it holds that yt = x(cid:62)t θ+ηt = ηt ˆBα = 0. ここで δ > 0 は作用が作用集合 a 内にあることを保証している: もし現在のタスク θ がある α に対して θ = θbα を満たすなら、yt = x(cid:62)t θ+ηt = ηt \bα = 0 となる。 0.73
Therefore, if the received rewards since Q(cid:62) ˆB(cid:62) ⊥ considerably deviate from the level of noise, the new task is an outlier to the current context (i.e., a task that does not lie in the subspace span(B)) with high probability. したがって、q(cid:62) 〜b(cid:62) から受け取った報酬がノイズのレベルからかなりずれている場合、新しいタスクは現在のコンテキスト(すなわち、サブスペーススパン(b)にないタスク)に対して高い確率で外れる。 0.70
Let Ynod = [y1, . . . , ynrsd](cid:62) collect the rewards. Ynod = [y1, . . , ynrsd] (cid:62) で報酬を回収する。 0.42
Also, we build a confidence interval for Ynod, which is Cnod = また、Ynod に対して Cnod = である信頼区間を構築する。 0.72
(cid:8)Yod ∈ Rnod :(cid:12)(cid:12)(ci d:107)Y (cid:107)2 − √ (cid:8)yod ∈ rnod :(cid:12)(cid:12)(ci d:107)y (cid:107)2 − ) 0.39
(cid:9), where ξod is the de- (cid:9) が de である場合 0.72
(cid:12)(cid:12) ≤ ξod (cid:12)(cid:12)≤ 0.46
tection threshold chosen by the agent. エージェントが選択したtectionしきい値。 0.78
If the observed Yod is beyond Cnod, we decide that the new task is an outlier. 観測されたヨードが Cnod を超えている場合、新しいタスクは外れ値であると判断する。 0.63
The main algorithm in this paper, which we call Adaptive Representation Learning algorithm (AdaRepL), is provided in Algorithm 5, which invokes both SeqRepL and OD subalgorithms. 本稿では,seqrepl と od subalgorithms の両方を呼び出すアルゴリズム5において,適応表現学習アルゴリズム (adarepl) と呼ばれる主アルゴリズムを提案する。 0.80
The former well balances representation exploration and transfer in the sequential setting, and the latter enables the algorithm to adapt to changing environments. 前者はシーケンシャルな設定で表現の探索と転送のバランスをとり、後者はアルゴリズムが変化する環境に適応できるようにします。 0.77
To make our algorithm robust to occasional outliers, we set a threshold kc so that the algorithm considers that a context switch has occurred only when kc outliers have been detected consecutively. アルゴリズムを時折外乱に対して堅牢にするため、しきい値kcを設定し、kc外乱が連続して検出された場合にのみコンテキストスイッチが発生するとみなす。 0.70
nod Fig. 3. Left: key steps to model WCST into a sequential decision-making model with linear reward functions. ノッド 図3。 左: wcstを線形報酬関数を持つ逐次意思決定モデルにモデル化するための重要なステップ。 0.60
Right: performance comparison between our algorithm and standard RL algorithms in WCST. 右:WCSTにおける我々のアルゴリズムと標準RLアルゴリズムのパフォーマンス比較。 0.88
Sorting rules change every 20 rounds. 20ラウンドごとにルールが変わる。 0.71
Dotted circles indicate that our algorithm is able to adapt to new contexts and learn new representations quickly. 点円は、我々のアルゴリズムが新しい文脈に適応し、新しい表現を素早く学習できることを示している。 0.68
It is worth mentioning that with the aid of the OD algorithm, the agent can detect context changes with high probability by properly selecting the detection threshold ξod and the length of probing actions nod. それ odアルゴリズムの助けを借りて、エージェントは検出しきい値sodと探索行動nodの長さを適切に選択することにより、高い確率でコンテキスト変化を検出できる。 0.71
Within each context, the regret of AdaRepL has an upper bound presented in Theorem 3.5. 各文脈において、AdaRepL の後悔は Theorem 3.5 に表される上限を持つ。 0.70
Although context change detection incurs some regret, the overall performance will still surpass the standard algorithms that are unable to learn representations adaptively. コンテキスト変化の検出は後悔を伴いますが、全体的なパフォーマンスは、表現を適応的に学習できない標準アルゴリズムを上回っています。 0.66
We will verify this point in the next section by revisiting the WCST. 我々は、wcstを再検討し、次のセクションでこの点を検証する。 0.57
IV. EXPERIMENTAL STUDY OF WCST IV。 WCSTの実験的研究 0.60
First, we provide more details on the tabular-Q learning and Deep-Q learning algorithms in Fig 1. まず、図1の表Q学習と深Q学習アルゴリズムについてより詳しく説明します。 0.78
We assume that the agent receives reward 1 if it takes the classification action xt satisfies xt = θt, otherwise, it receives reward 0. 分類作用 xt が xt = θt を満たすならば、エージェントは報酬 1 を受け取ると仮定し、そうでなければ報酬 0 を受け取る。 0.81
For the tabular-Q learning, the problem is to construct the 43×4 Q table. 表Q学習では、43×4のQテーブルを構築することが問題となる。 0.68
This is because there are 43 possible stimulus cards (4 colors, 4 numbers, 4 shapes) and each stimulus card can be taken as a state, and there are 4 sorting actions. これは43の可能な刺激カード(4色、4数字、4形)があり、各刺激カードを1つの状態とすることができ、4つのソートアクションがあるためである。 0.69
the Deep-Q learning, we formalize each input state by a 3-dimension vector (shape, number, color)(cid:62) ∈ {1, 2, 3, 4}3. 深部Q学習では、各入力状態を3次元ベクトル(形状、数、色)(cid:62) ∈ {1, 2, 3, 4}3)で定式化する。 0.83
The result shown in Fig 1 is based on a threelayer network with 3, 12, and 4 nodes in the input, hidden, and output layers, respectively. 図1に示す結果は,入力層,隠蔽層,出力層にそれぞれ3,12,4ノードの3層ネットワークに基づいている。 0.71
We also considered deeper or wider structures but obtained similar performances. より深い構造やより広い構造も検討しましたが、同じようなパフォーマンスを得ました。 0.39
For It can be observed from Fig 1 that these two algorithms struggle in the WCST. のために 図1からこの2つのアルゴリズムがWCSTで苦労していることが分かる。 0.61
The reason is that a large number of samples (certainly more than 44 samples) are needed to construct the Q table or train the network weights. 理由は、Qテーブルを構築したり、ネットワーク重量をトレーニングするために、多数のサンプル(特に44以上のサンプル)が必要であるからである。 0.79
However, if the sorting rule changes much earlier than 44 rounds, it is impossible to find the optimal policy. しかし、ソートルールが44ラウンドよりもずっと早く変化した場合、最適方針を見つけることは不可能である。 0.77
Also, being unaware of the sorting rule changes worsens the performance. また、ソートルールに気付いていないとパフォーマンスが悪化する。 0.57
Next, we demonstrate how our proposed algorithm, which explore and exploit the representation in the WCST and detect sorting rule changes, has a much better performance. 次に,WCSTにおける表現を探索,活用し,ソートルールの変更を検出するアルゴリズムを提案する。
訳抜け防止モード: 次に,提案したアルゴリズムについて述べる。 WCSTの表現を調べて利用し、ソートルールの変更を検出します。 パフォーマンスが向上しました
0.63
To do that, we model the WCST into a sequential decisionmaking model. そのために、WCSTをシーケンシャルな意思決定モデルにモデル化する。 0.69
Specifically, we use a matrix At ∈ R4×3 to describe the stimulus card at round t. 具体的には、円 t における刺激カードを記述するために行列 At ∈ R4×3 を用いる。 0.66
The first, second, and third columns of At represent shape, number, and color, respectively, and they take values from the set {e1, e2, e3, e4} with ei being the ith standard basis of R4. At の第1列、第2列、第3列はそれぞれ形状、数、色を表し、e1, e2, e3, e4} から値を取り、ei は R4 の i 番目の標準基底である。 0.76
In each column, ei indicates that this card has the same shape/number/color 各列に同じ形/数/色を示す。 0.51
20406080100020406080 100AdaRepLTabularQDQ LrandomCumulativeRew ardRoundsAt=100010001000Bσ∈100,010,001yt=x>tθtθt=AtBσshapenumbercolor 20406080100020408010 0AdaRepLTabularQDQLr andomCumulativeRewar dRoundsAt=「100010001000」Bσが表示された。 0.19
英語(論文から抽出)日本語訳スコア
as the ith card on table (see Fig 3). テーブル上のithカードとして(図3)。 0.74
For example, the stimulus card (with two green circles) in Fig 1 can be represented by the matrix A = [e1, e2, e3] (see Fig 3). 例えば、図1の刺激カード(緑の円が2つある)は行列 A = [e1, e2, e3] で表すことができる(図3参照)。 0.79
Moreover, we use a standard unit vector Bσ, which takes values from {b1, b2, b3} with bi being the standard basis of R3, to respectively describe the 3 sorting rules – shape, number, and color. さらに、b1, b2, b3} から値を取り、bi を r3 の標準基底とする標準単位ベクトル bσ を用いて、3つのソート規則 — 形状、数、色 — をそれぞれ記述する。 0.77
In addition, the action xt also takes value from the set {e1, e2, e3, e4}. さらに、アクション xt は集合 {e1, e2, e3, e4} から値を取る。 0.73
The action xt = ei means to sort the stimulus card to the ith card on table. アクションxt = eiは、刺激カードをテーブル上のithカードにソートすることを意味する。 0.69
Consequently, the WCST can be described by the sequential decision-making model yt = x(cid:62)t θt with θt = AtBσ. したがって、WCST は θt = AtBσ の逐次決定モデル yt = x(cid:62)t θt で記述できる。 0.75
Here the unit vector Bσ can be taken as the current representation since the correct sorting action can always be computed by x∗t = AtBσ no matter what card the agent sees. ここで単位ベクトル bσ は、エージェントがどんなカードを見ても常に x∗t = atbσ で計算できるので、現在の表現として捉えることができる。 0.73
For instance, suppose the rule is number (i.e., Bσ = b2), if the agent sees the stimulus card with two green circles, i.e., A = [e1, e2, e3], then correct sort is the second card on table since it can be computed that x∗t = AtBσ = [0, 1, 0, 0](cid:62). 例えば、この規則が数であると仮定すると(Bσ = b2)、エージェントが2つの緑の円を持つ刺激カード、すなわち A = [e1, e2, e3] を見るなら、正しいソートはテーブル上の2番目のカードであり、x∗t = AtBσ = [0, 1, 0] (cid:62) と計算できる。 0.84
to construct Bσ. Bσ = ((cid:80)k ter(cid:80)k Bσを構築する。 Bσ = ((cid:80)k ter(cid:80)k 0.56
t=1 A(cid:62)t xtx(cid:62)t At)−1(cid:80)k t=1 A(cid:62)t xtx(cid:62)t At)−1(cid:80)k 0.40
The problem then reduces to learn the underlying representation Bσ, a task that is much easier than constructing the Q table or training the weights in a Deep-Q network. この問題は、Qテーブルの構築やDeep-Qネットワークでの重み付けのトレーニングよりもはるかに容易なタスクであるBσの基盤となる表現を学習することを減らす。 0.77
Remarkably, one does not even need to learn individual Instead, Bσ can be recovered by θt t=1 A(cid:62)t xtyt immediately aft=1 A(cid:62)t xtx(cid:62)t At becomes invertible. bσ は θt t=1 a(cid:62)t xtyt によってすぐに aft=1 a(cid:62)t xtx(cid:62)t at が可逆になる。 0.72
This indicates that our idea in this paper can apply to more general situations. このことから,本論文のアイデアはより一般的な状況に適用できることが示唆された。 0.56
It can be observed in Fig 3 that our algorithm significantly outperforms the other two, which demonstrates the power of being able to abstract compact representations and adapt to new environments. 図3では、我々のアルゴリズムが他の2つよりも大幅に優れており、コンパクトな表現を抽象化し、新しい環境に適応する能力を示している。 0.80
V. CONCLUDING REMARKS In this paper, we have studied representation learning for decision-making in environments with contextual changes. v. 結論付け 本稿では,文脈変化を伴う環境における意思決定のための表現学習について検討した。 0.65
To describe such context-changing environments, we employ a decision-making model in which tasks are drawn from distinct sets sequentially. このような文脈変化環境を記述するために,タスクを個別のセットから順次引き出す意思決定モデルを採用する。 0.74
Inspired by strategies taken by humans, we propose an online algorithm that is able to learn and transfer representations under the sequential setting and has the ability to adapt to changing contexts. ヒトの戦略に触発されて、シーケンシャルな設定の下で表現を学習し転送し、文脈の変化に対応できるオンラインアルゴリズムを提案する。 0.71
Some analytical results have been obtained, showing that our algorithm outperforms existing ones that are not able to learn representations. 解析結果から,本アルゴリズムは既存の表現を学習できないものよりも優れていることが示された。 0.73
We also apply our algorithm to a real-world task (WCST) and verify the benefits of the ability to learn representations flexibly and adaptively. また,本アルゴリズムを実世界のタスク(wcst)に適用し,表現を柔軟かつ適応的に学習する能力の利点を検証する。 0.78
We are interested in studying representation learning in more general RL frameworks such as Markovian or non-Markovian processes. 我々はマルコフ過程や非マルコフ過程のようなより一般的なRLフレームワークにおける表現学習の研究に興味を持っている。 0.53
REFERENCES [1] A. Radulescu, Y. S. Shin, and Y. Niv, “Human representation learning,” 参考 [1] A. Radulescu, Y. S. Shin, Y. Niv, “Human representation learning” 0.47
Annual Review of Neuroscience, vol. 神経科学年報, vol. 0.60
44, no. 1, pp. 253–273, 2021. 44, No. 1, pp. 253–273, 2021。 0.95
[2] N. T. Franklin and M. J. Frank, “Generalizing to generalize: humans flexibly switch between compositional and conjunctive structures during reinforcement learning,” PLoS Computational Biology, vol. PLoS Computational Biology, vol.: “人間は強化学習中に構成構造と結合構造を柔軟に切り替える。
訳抜け防止モード: 2]n.t.フランクリンとm.j.フランク。 generalization (複数形 generalizations) 強化学習中,人間は柔軟に構成構造と結合構造を切り替える。
0.62
16, no. 4, p. 16, No. 4. P. 0.39
e1007720, 2020. e1007720、2020年。 0.75
[3] B. R. Buchsbaum, S. Greer, W. [3] b. r. buchsbaum, s. greer, w。 0.39
-L. Chang, and K. F. Berman, “Metaanalysis of neuroimaging studies of the wisconsin card-sorting task and component processes,” Human Brain Mapping, vol. -L。 Chang, and K. F. Berman, “Meta Analysis of neuroimaging studies of wisconsin card-sorting task and component process”. Human Brain Mapping, vol.
訳抜け防止モード: -L。 Chang氏とK.F. Berman氏は,“Wisconsinカードのニューロイメージング研究のメタアナリシス – タスクのソートとコンポーネントプロセス”だ。 人間の脳マッピング。
0.56
25, no. 1, pp. 35–45, 2005. 第25巻第1号、2005年、35-45頁。 0.46
[4] C. C (複数形 Cs) 0.47
-H. Lie, K. Specht, J. C. Marshall, and G. R. Fink, “Using fMRI to decompose the neural processes underlying the Wisconsin Card Sorting Test,” Neuroimage, vol. -h。 Lie, K. Specht, J. C. Marshall, そしてG. R. Finkは、“fMRIを使ってウィスコンシンカードソルティングテストの基礎となる神経プロセスを分解する”、とNeuroimageは言う。 0.75
30, no. 3, pp. 1038–1049, 2006. 30, No. 3, pp. 1038–1049, 2006。 0.46
[5] P. Auer, “Using confidence bounds for exploitation-explora tion tradeoffs,” Journal of Machine Learning Research, vol. Journal of Machine Learning Research, vol.[5] P. Auer, “Eccess-Exploration tradeoffsの信頼性バウンダリを使用する”。 0.79
3, no. Nov, pp. 397–422, 2002. 3位はノー。 2002年、p.397-422。 0.70
[6] Y. Abbasi-Yadkori, D. P´al, and C. Szepesv´ari, “Improved algorithms for linear stochastic bandits,” in Advances in Neural Information Processing Systems, vol. Y. Abbasi-Yadkori, D. P al, and C. Szepesv ́ari, “Improved algorithm for linear stochastic bandits” in Advances in Neural Information Processing Systems, vol。
訳抜け防止モード: [6 ]Y. Abbasi-Yadkori, D. P al, そしてC. Szepesv ́ariは、“線形確率的包帯に対する改良アルゴリズム”だ。 In Advances in Neural Information Processing Systems, vol.
0.74
11, 2011, pp. 2312–2320. 2011年11月、p.2312-2320。 0.63
[7] Y. Russac, C. Vernade, and O. Capp´e, “Weighted linear bandits for non-stationary environments,” in Advances in Neural Information Processing Systems, vol. 7] y. russac, c. vernade, o. capp ́e, “weighted linear bandits for non-stationary environments” ニューラル情報処理システムにおける進歩。 0.71
32. Curran Associates, Inc., 2019. 32. curran associates, inc.、2019年。 0.48
[8] L. Wei and V. Srivastava, “Nonstationary stochastic multiarmed and minimax regret,” arXiv preprint [8]L. Wei, V. Srivastava, “Nonstationary stochastic multiarmed and minimax regret”, arXiv preprint 0.44
bandits: UCB policies arXiv:2101.08980, 2021. 盗賊: UCB Policy arXiv:2101.08980, 2021 0.72
[9] T. Gafni and K. Cohen, “Learning in restless multiarmed bandits via adaptive arm sequencing rules,” IEEE Transactions on Automatic Control, vol. ieee transactions on automatic control, vol. “adaptive arm sequencing rules”[9] t. gafni氏とk. cohen氏は次のように述べている。 0.70
66, no. 10, pp. 5029–5036, 2021. 66, no. 10, pp. 5029-5036, 2021。 0.92
[10] P. Reverdy, V. Srivastava, and N. E. Leonard, “Satisficing in multiarmed bandit problems,” IEEE Transactions on Automatic Control, vol. 10] P. Reverdy, V. Srivastava, N. E. Leonard, “Satisficing in multiarmed bandit problem, IEEE Transactions on Automatic Control, vol. 0.43
62, no. 8, pp. 3788–3803, 2016. 62, No. 8, pp. 3788–3803, 2016 0.43
[11] M. Malekipirbazari and O. Cavus, “Risk-averse allocation indices for multi-armed bandit problem,” IEEE Transactions on Automatic Control, 2021, in Press. IEEE Transactions on Automatic Control, 2021, in Press.[11]M. Malekipirbazari, O. Cavus, “Risk-averse allocation indices for multi-armed bandit problem, IEEE Transactions on Automatic Control, 2021.
訳抜け防止モード: [11 ]M. Malekipirbazari と O. Cavus は「多武装盗賊問題に対するリスク - 逆割当指標」である。 IEEE Transactions on Automatic Control , 2021 , in Press .
0.82
[12] L. Wei and V. Srivastava, “Minimax policy for heavy-tailed bandits,” 12]l.weiとv. srivastava, “minimax policy for heavy-tailed bandits” 0.38
IEEE Control Systems Letters, vol. ieee control systems letters (英語) 0.50
5, no. 4, pp. 1423–1428, 2020. 5, No. 4, pp. 1423–1428, 2020。 0.48
[13] M. K. Hanawal and S. Darak, “Multi-player bandits: A trekking approach,” IEEE Transactions on Automatic Control, 2021, in Press. ieee transactions on automatic control, 2021, in press.[13] m. k. hanawalとs. darakは、こう書いている。
訳抜け防止モード: 13 ]m.k.hanawal と s. darak は "multi- player bandits: a trekking approach" と題した。 ieee transactions on automatic control, 2021, in press。
0.66
[14] D. Kalathil, N. Nayyar, and R. Jain, “Decentralized learning for multiplayer multiarmed bandits,” IEEE Transactions on Information Theory, vol. 14] D. Kalathil, N. Nayyar, R. Jain, “Decentralized learning for multiplayer multiarmed bandits”, IEEE Transactions on Information Theory, vol。
訳抜け防止モード: [14 ] D. Kalathil, N. Nayyar, R. Jain. マルチプレイヤーのマルチアームバンディットのための分散学習,IEEE Transactions on Information Theory, vol.
0.82
60, no. 4, pp. 2331–2345, 2014. 60, no. 4, pp. 2331-2345, 2014 頁。 0.82
[15] P. Landgren, V. Srivastava, and N. E. Leonard, “Distributed cooperative decision making in multi-agent multi-armed bandits,” Automatica, vol. [15]p.landgren, v. srivastava, n. e. leonard, “マルチエージェントのマルチアーム付きバンディットにおける共同意思決定を分散化”した。
訳抜け防止モード: 15] P. Landgren, V. Srivastava, N. E. Leonard. 「多エージェント多武装盗賊における分散協力的意思決定」 Automatica, vol。
0.82
125, p. 109445, 2021. 125,p.109445,2021。 0.83
[16] U. Madhushani and N. E. Leonard, “A dynamic observation strategy for multi-agent multi-armed bandit problem,” in 2020 European Control Conf. [16] u. madhushani氏とn. e. leonard氏は、2020年のeuropean control confで、“マルチエージェントマルチアームドバンディット問題のダイナミックな観察戦略”を発表した。
訳抜け防止モード: 16 ] u. madhushani と n. e. leonard, “a dynamic observation strategy for multi- agent multi- armed bandit problem” 2020年欧州委員会委員。
0.82
, 2020, pp. 1677–1682. 原書、2020年、p.1677-1682。 0.49
[17] J. Zhu and J. Liu, “A distributed algorithm for multi-armed bandit with homogeneous rewards over directed graphs,” in American Control Conference, 2021, pp. 3038–3043. J. Zhu, J. Liu, “A distributed algorithm for multi-armed bandit with homogeneous rewards over directed graphs” in American Control Conference, 2021, pp. 3038–3043。
訳抜け防止モード: J. Zhu 氏と J. Liu 氏は,“有向グラフに対する均質な報酬を持つマルチ武装バンディットの分散アルゴリズム” だ。 The American Control Conference, 2021 , pp. 3038–3043.
0.85
[18] Y. Bengio, A. Courville, and P. Vincent, “Representation learning: A review and new perspectives,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. Y. Bengio, A. Courville, P. Vincent, “Representation Learning: A review and new perspectives”, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol.[18] Y. Bengio, A. Courville, P. Vincent,
訳抜け防止モード: [18 ]Y・ベンジオ、A・クールヴィル、P・ヴィンセント。 表現学習 : IEEE Transactions on Pattern Analysis and Machine Intelligence,vol
0.54
35, no. 8, pp. 1798–1828, 2013. 35, No. 8, pp. 1798–1828, 2013 0.43
[19] N. Tripuraneni, C. Jin, and M. I. Jordan, “Provable meta-learning of N. Tripuraneni, C. Jin, M. I. Jordan, “Provable meta-learning of” 0.44
linear representations,” arXiv preprint arXiv:2002.11684, 2020. 線形表現” arxiv preprint arxiv:2002.11684, 2020。 0.62
[20] S. Lale, K. Azizzadenesheli, A. Anandkumar, and B. Hassibi, “Stochastic linear bandits with hidden low rank structure,” arXiv preprint arXiv:1901.09490, 2019. S. Lale, K. Azizzadenesheli, A. Anandkumar, B. Hassibi, “Stochastic linear bandits with hidden low rank structure” arXiv preprint arXiv:1901.09490, 2019.
訳抜け防止モード: 20] s. lale, k. azizzadenesheli, a. anandkumar, b. hassibi氏: “隠れた低ランク構造を持つ確率線形バンディット” arxiv プレプリント arxiv:1901.09490, 2019 。
0.61
[21] K. -S. [21]K。 -S。 0.39
Jun, R. Willett, S. Wright, and R. Nowak, “Bilinear bandits with low-rank structure,” in International Conference on Machine Learning, 2019, pp. 3163–3172. Jun, R. Willett, S. Wright, and R. Nowak, “Bilinear bandits with Low-rank structure” in International Conference on Machine Learning, 2019, pp. 3163–3172。
訳抜け防止モード: Jun, R. Willett, S. Wright, R. Nowak 国際機械学習会議における「低位二線帯」 2019 , pp . 3163–3172 .
0.74
[22] Y. Lu, A. Meisami, and A. Tewari, “Low-rank generalized linear bandit [22]Y. Lu, A. Meisami, A. Tewari, “Low-rank generalized linear bandit” 0.44
problems,” arXiv preprint arXiv:2006.02948, 2020. arXiv preprint arXiv:2006.02948, 2020。 0.84
[23] J. Yang, W. Hu, J. D. Lee, and S. S. Du, “Impact of representation learning in linear bandits,” in International Conference on Learning Representations, 2021. J. Yang, W. Hu, J. D. Lee, S. S. Du, “Impact of representation learning in linear bandits” in International Conference on Learning Representations, 2021
訳抜け防止モード: [23 ]J. Yang, W. Hu, J. D. Lee S.S. Duは「リニアバンディットにおける表現学習の影響」と述べた。 国際学習表現会議(2021年)に参加。
0.71
[24] M. G. Azar, A. Lazaric, and E. Brunskill, “Sequential transfer in multi-armed bandit with finite set of models,” in Advances in Neural Information Processing Systems, 2013, p. 2220–2228. 24] m. g. azar, a. lazaric, e. brunskill, “sequential transfer in multi-armed bandit with finite set of models” in advances in neural information processing systems, 2013, p. 2220–2228. (英語)
訳抜け防止モード: [24 ]M. G. Azar, A. Lazaric, E. Brunskill 『有限モデルによる多武装バンディットの連続移動』 In Advances in Neural Information Processing Systems, 2013, pp. 2220–2228。
0.81
[25] V. Dani, T. P. Hayes, and S. M. Kakade, “Stochastic linear optimization V. Dani, T. P. Hayes, S. M. Kakade, “Stochastic linear optimization” 0.42
under bandit feedback,” 2008. 2008年、アルバム『under bandit feedback』をリリース。 0.41
[26] J. Hu, X. Chen, C. Jin, L. Li, and L. Wang, “Near-optimal representation learning for linear bandits and linear RL,” arXiv preprint arXiv:2102.04132, 2021. J. Hu, X. Chen, C. Jin, L. Li, L. Wang, “Near-Optitimal representation learning for linear bandits and linear RL” arXiv preprint arXiv:2102.04132, 2021。
訳抜け防止モード: 【26】j・h・x・チェン・c・ジン l. li, and l. wang, “neal- optimal representation learning for linear bandits and linear rl” arxiv プレプリント arxiv:2102.04132 , 2021 。
0.71
[27] P. Rusmevichientong and J. N. Tsitsiklis, “Linearly parameterized bandits,” Mathematics of Operations Research, vol. [27]p. rusmevichientong と j. n. tsitsiklis, “linearly parameterized bandits”, mathematics of operations research, vol. (英語)
訳抜け防止モード: [27 ]P. Rusmevichientong, J. N. Tsitsiklis, “linearly parameterized bandits” 運用数学研究部、第4部。
0.78
35, no. 2, pp. 395– 411, 2010. 35, no. 2, pp. 395–411, 2010。 0.42
[28] Y. Li, Y. Wang, X. Chen, and Y. Zhou, “Tight regret bounds for infinite-armed linear contextual bandits,” in International Conference on Artificial Intelligence and Statistics. [28] y. li, y. wang, x. chen, y. zhou, “tight regret bounds for infinite-armed linear context bandits” は、人工知能と統計に関する国際会議で発表された。
訳抜け防止モード: [28 ] Y. Li, Y. Wang, X. Chen, Y. Zhou, “Tit regrets for infinite - armed linear contextual bandits”. 人工知能と統計に関する国際会議」に参加。
0.86
PMLR, 2021, pp. 370–378. PMLR, 2021, pp. 370-378。 0.85
[29] Y. Qin, T. Menara, S. Oymak, S. Ching, and F. Pasqualetti, “Nonstationary representation learning in sequential linear bandits,” arXiv preprint arXiv:2201.04805, 2022. Y. Qin, T. Menara, S. Oymak, S. Ching, F. Pasqualetti, “Nonstationary representation learning in sequence linear bandits, arXiv preprint arXiv:2201.04805, 2022。
訳抜け防止モード: [29]y.qin,t.menara,s. oymak, s. ching, and f. pasqualetti, “シーケンシャルリニアバンディットにおける非定常表現学習” arxiv プレプリント arxiv:2201.04805 , 2022 。
0.62
             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。