論文の概要: Temporally Abstract Partial Models
- arxiv url: http://arxiv.org/abs/2108.03213v1
- Date: Fri, 6 Aug 2021 17:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:45:03.696368
- Title: Temporally Abstract Partial Models
- Title(参考訳): 時間的抽象部分モデル
- Authors: Khimya Khetarpal, Zafarali Ahmed, Gheorghe Comanici, Doina Precup
- Abstract要約: 特定の状況においてのみ、選択肢が手頃な価格であることを考慮して、時間的に抽象的な部分的オプションモデルを開発する。
このようなモデルを用いた場合の計画学習における推定誤差と近似誤差のトレードオフを分析する。
- 参考スコア(独自算出の注目度): 62.12485855601448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans and animals have the ability to reason and make predictions about
different courses of action at many time scales. In reinforcement learning,
option models (Sutton, Precup \& Singh, 1999; Precup, 2000) provide the
framework for this kind of temporally abstract prediction and reasoning.
Natural intelligent agents are also able to focus their attention on courses of
action that are relevant or feasible in a given situation, sometimes termed
affordable actions. In this paper, we define a notion of affordances for
options, and develop temporally abstract partial option models, that take into
account the fact that an option might be affordable only in certain situations.
We analyze the trade-offs between estimation and approximation error in
planning and learning when using such models, and identify some interesting
special cases. Additionally, we demonstrate empirically the potential impact of
partial option models on the efficiency of planning.
- Abstract(参考訳): 人間と動物は、様々な行動の過程を多くの時間スケールで推論し予測する能力を持っている。
強化学習において、オプションモデル(Sutton, Precup \& Singh, 1999; Precup, 2000)は、このような時間的抽象的な予測と推論の枠組みを提供する。
自然知的エージェントは、特定の状況において関連する、あるいは実現可能な行動コースに注目し、時には手頃な行動と呼ばれることもある。
本稿では,選択肢の余裕の概念を定義し,ある状況においてのみ選択肢が手頃な価格であることを考慮して,時間的に抽象的な部分的オプションモデルを開発する。
このようなモデルを用いた場合の計画と学習における推定誤差と近似誤差のトレードオフを分析し、興味深い特別なケースを特定する。
さらに、部分的オプションモデルが計画の効率に与える影響を実証的に示す。
関連論文リスト
- On the Efficient Marginalization of Probabilistic Sequence Models [3.5897534810405403]
この論文は、複雑な確率的クエリに答えるために自己回帰モデルを使うことに焦点を当てている。
我々は,モデルに依存しない逐次モデルにおいて,境界化のための新しい,効率的な近似手法のクラスを開発する。
論文 参考訳(メタデータ) (2024-03-06T19:29:08Z) - Limits of Model Selection under Transfer Learning [18.53111473571927]
提案手法は,仮説クラスの選択によって異なることが知られているソース分布とターゲット分布の移動距離について検討する。
適応率、すなわち分布情報を持たないものは、オラクルレートよりも任意に遅くなる。
論文 参考訳(メタデータ) (2023-04-29T02:27:42Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - A Tale Of Two Long Tails [4.970364068620608]
モデルが不確実である例を特定し、その不確実性の原因を特徴付ける。
追加情報が存在する場合の学習速度が,非典型例と雑音例とで異なるか否かを検討する。
以上の結果から,トレーニングの過程で適切に設計された介入は,異なる不確実性源の識別・識別に有効な方法であることが示唆された。
論文 参考訳(メタデータ) (2021-07-27T22:49:59Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。