論文の概要: Simultaneous Perception-Action Design via Invariant Finite Belief Sets
- arxiv url: http://arxiv.org/abs/2109.05073v1
- Date: Fri, 10 Sep 2021 19:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 22:42:22.590564
- Title: Simultaneous Perception-Action Design via Invariant Finite Belief Sets
- Title(参考訳): 不変有限信念集合による同時知覚行動設計
- Authors: Michael Hibbard, Takashi Tanaka, Ufuk Topcu
- Abstract要約: 我々は、自律システムのための新しい同時認識-行動設計フレームワークを開発する。
エージェントは行動選択のポリシーだけでなく、信念に依存した観察機能を自由に合成できる。
サンプル密度が増加するにつれて、値関数が連続状態空間値に収束することが証明される。
- 参考スコア(独自算出の注目度): 20.59493611017851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although perception is an increasingly dominant portion of the overall
computational cost for autonomous systems, only a fraction of the information
perceived is likely to be relevant to the current task. To alleviate these
perception costs, we develop a novel simultaneous perception-action design
framework wherein an agent senses only the task-relevant information. This
formulation differs from that of a partially observable Markov decision
process, since the agent is free to synthesize not only its policy for action
selection but also its belief-dependent observation function. The method
enables the agent to balance its perception costs with those incurred by
operating in its environment. To obtain a computationally tractable solution,
we approximate the value function using a novel method of invariant finite
belief sets, wherein the agent acts exclusively on a finite subset of the
continuous belief space. We solve the approximate problem through value
iteration in which a linear program is solved individually for each belief
state in the set, in each iteration. Finally, we prove that the value
functions, under an assumption on their structure, converge to their continuous
state-space values as the sample density increases.
- Abstract(参考訳): 認知は、自律システム全体の計算コストの中でますます支配的になっているが、認識される情報のほんの一部が現在のタスクに関係している可能性が高い。
これらの知覚コストを軽減するために,エージェントがタスク関連情報のみを検知する新しい同時認識行動設計フレームワークを開発する。
この定式化は、部分的に観測可能なマルコフ決定過程とは異なる、なぜならエージェントは行動選択のポリシーだけでなく、信念に依存した観察関数も自由に合成できるからである。
この方法により、エージェントは、その環境下での操作によって生じるものと知覚コストのバランスをとることができる。
計算的に抽出可能な解を得るために、不変有限信念集合の新しい方法を用いて値関数を近似し、エージェントは連続信念空間の有限部分集合にのみ作用する。
本稿では,各反復において,集合の各信念状態に対して線形プログラムを個別に解いた値反復による近似問題を解く。
最後に,その構造を仮定した値関数が,試料密度が増加するにつれて連続的な状態空間値に収束することを示す。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Deceptive Sequential Decision-Making via Regularized Policy Optimization [54.38738815697299]
システムの基本的報酬に対する敵意を積極的に欺く政策合成問題に対する2つの正則化戦略を提示する。
政策最適化問題において,各形態の騙しをいかに実装できるかを示す。
ディバータリーの詐欺は、最も重要なエージェントが最重要であると敵に信じさせ、同時に、その最適で非知覚的な価値の980.83%の合計的な報酬を得ることを示せる。
論文 参考訳(メタデータ) (2025-01-30T23:41:40Z) - Towards Understanding Extrapolation: a Causal Lens [53.15488984371969]
我々は、外挿がいつ可能かを理論的に理解し、それを実現するための原則的な方法を提供する。
この定式化の下では、外挿問題を潜在変数識別問題にキャストする。
この理論は、基礎となる多様体の滑らかさとシフト特性の間の複雑な相互作用を明らかにする。
論文 参考訳(メタデータ) (2025-01-15T21:29:29Z) - Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - Facility Location Games with Scaling Effects [63.421996606381164]
古典的な施設配置問題を考慮し、各エージェントの個々のコスト関数が、スケーリング係数によって乗算された施設からの距離と等しくなる変動を考察する。
我々は,最適解の計算を記述し,総コストと最大コストの目標に焦点をあてる。
エージェントが単一話者の好みを持つことを保証するスケーリング関数の条件を特徴付ける。
論文 参考訳(メタデータ) (2024-02-29T07:08:18Z) - Independent Natural Policy Gradient Methods for Potential Games:
Finite-time Global Convergence with Entropy Regularization [28.401280095467015]
本研究では,独立エントロピー規則化自然ポリシー勾配法(NPG)の有限時間収束について検討する。
提案手法は, 作用空間の大きさに依存しないサブ線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2022-04-12T01:34:02Z) - Adaptive Information Belief Space Planning [9.365993173260316]
我々は、不確実性に明示的に対処する報酬関数を使用して、情報決定を効率的に行うことに重点を置いている。
期待される情報理論の報奨関数と結果の値関数のバウンダリを導出する。
そこで我々は,計算時間のごく一部で同一の動作選択を実現するために集約を洗練させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-14T21:12:00Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。