論文の概要: The Value of Information When Deciding What to Learn
- arxiv url: http://arxiv.org/abs/2110.13973v1
- Date: Tue, 26 Oct 2021 19:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 11:38:55.827307
- Title: The Value of Information When Deciding What to Learn
- Title(参考訳): 何を学ぶかを決めるときの情報の価値
- Authors: Dilip Arumugam and Benjamin Van Roy
- Abstract要約: 本研究は情報指向サンプリングの設計原理に基づく(Russo & Van Roy, 2014)。
我々は,学習内容を決定する際の情報の価値を確認する実証的な結果に目を向ける前に,学習目標に関する文献からの新たな知見を提示する。
- 参考スコア(独自算出の注目度): 21.945359614094503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All sequential decision-making agents explore so as to acquire knowledge
about a particular target. It is often the responsibility of the agent designer
to construct this target which, in rich and complex environments, constitutes a
onerous burden; without full knowledge of the environment itself, a designer
may forge a sub-optimal learning target that poorly balances the amount of
information an agent must acquire to identify the target against the target's
associated performance shortfall. While recent work has developed a connection
between learning targets and rate-distortion theory to address this challenge
and empower agents that decide what to learn in an automated fashion, the
proposed algorithm does not optimally tackle the equally important challenge of
efficient information acquisition. In this work, building upon the seminal
design principle of information-directed sampling (Russo & Van Roy, 2014), we
address this shortcoming directly to couple optimal information acquisition
with the optimal design of learning targets. Along the way, we offer new
insights into learning targets from the literature on rate-distortion theory
before turning to empirical results that confirm the value of information when
deciding what to learn.
- Abstract(参考訳): すべての意思決定エージェントは、特定のターゲットに関する知識を取得するために探索します。
リッチで複雑な環境では、このターゲットを構成するのはエージェントデザイナーの責任であり、環境自体の完全な知識がなければ、設計者は、エージェントがターゲットが関連するパフォーマンスの不足に対してターゲットを特定するために取得しなければならない情報量とバランスが取れない、最適以下の学習ターゲットをフォージすることができる。
近年の研究では、この課題に対処するための学習目標とレート歪曲理論の関連性を開発し、自動化された方法で何を学ぶかを決定するエージェントに権限を与える一方で、提案アルゴリズムは効率的な情報取得の等しく重要な課題に最適に対処していない。
本稿では,情報指向サンプリング(russo & van roy, 2014)の独創的な設計原理に基づいて,学習目標の最適設計と最適な情報獲得を組み合わせるために,この欠点を直接解決する。
その過程で,何を学ぶかを決定する際に,情報の価値を確認する経験的結果に目を向ける前に,レートゆがみ理論に関する文献から学習目標への新たな洞察を提供する。
関連論文リスト
- Unveiling Entity-Level Unlearning for Large Language Models: A Comprehensive Analysis [32.455702022397666]
大規模言語モデルのアンラーニングは、セキュリティとプライバシの懸念に対処する可能性から、注目を集めている。
この研究の多くは、機密コンテンツを含む事前定義されたインスタンスの削除を対象とする、インスタンスレベルの未学習に集中している。
本稿では,対象モデルからエンティティ関連知識を完全に消去することを目的とした,エンティティレベルのアンラーニングという新しいタスクを提案する。
論文 参考訳(メタデータ) (2024-06-22T09:40:07Z) - Collaborative Knowledge Infusion for Low-resource Stance Detection [83.88515573352795]
姿勢検出モデルを支援するために、ターゲット関連の知識がしばしば必要である。
低リソース姿勢検出タスクに対する協調的知識注入手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T08:32:14Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning [15.33496710690063]
本稿では,目標認識型クロスエントロピー(GACE)ロスを提案する。
次に、目標関連情報を利用して与えられた指示に集中する目標識別型注意ネットワーク(GDAN)を考案する。
論文 参考訳(メタデータ) (2021-10-25T14:24:39Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Reinforcement Learning, Bit by Bit [27.66567077899924]
強化学習エージェントはシミュレーション環境において顕著な成果を示した。
データ効率は、この成功を現実の環境に運ぶ上で障害となる。
我々は、原則化されたガイダンスを提供する概念と後悔の分析について議論する。
論文 参考訳(メタデータ) (2021-03-06T06:37:46Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。