論文の概要: Simultaneous Perception-Action Design via Invariant Finite Belief Sets
- arxiv url: http://arxiv.org/abs/2109.05073v1
- Date: Fri, 10 Sep 2021 19:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 22:42:22.590564
- Title: Simultaneous Perception-Action Design via Invariant Finite Belief Sets
- Title(参考訳): 不変有限信念集合による同時知覚行動設計
- Authors: Michael Hibbard, Takashi Tanaka, Ufuk Topcu
- Abstract要約: 我々は、自律システムのための新しい同時認識-行動設計フレームワークを開発する。
エージェントは行動選択のポリシーだけでなく、信念に依存した観察機能を自由に合成できる。
サンプル密度が増加するにつれて、値関数が連続状態空間値に収束することが証明される。
- 参考スコア(独自算出の注目度): 20.59493611017851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although perception is an increasingly dominant portion of the overall
computational cost for autonomous systems, only a fraction of the information
perceived is likely to be relevant to the current task. To alleviate these
perception costs, we develop a novel simultaneous perception-action design
framework wherein an agent senses only the task-relevant information. This
formulation differs from that of a partially observable Markov decision
process, since the agent is free to synthesize not only its policy for action
selection but also its belief-dependent observation function. The method
enables the agent to balance its perception costs with those incurred by
operating in its environment. To obtain a computationally tractable solution,
we approximate the value function using a novel method of invariant finite
belief sets, wherein the agent acts exclusively on a finite subset of the
continuous belief space. We solve the approximate problem through value
iteration in which a linear program is solved individually for each belief
state in the set, in each iteration. Finally, we prove that the value
functions, under an assumption on their structure, converge to their continuous
state-space values as the sample density increases.
- Abstract(参考訳): 認知は、自律システム全体の計算コストの中でますます支配的になっているが、認識される情報のほんの一部が現在のタスクに関係している可能性が高い。
これらの知覚コストを軽減するために,エージェントがタスク関連情報のみを検知する新しい同時認識行動設計フレームワークを開発する。
この定式化は、部分的に観測可能なマルコフ決定過程とは異なる、なぜならエージェントは行動選択のポリシーだけでなく、信念に依存した観察関数も自由に合成できるからである。
この方法により、エージェントは、その環境下での操作によって生じるものと知覚コストのバランスをとることができる。
計算的に抽出可能な解を得るために、不変有限信念集合の新しい方法を用いて値関数を近似し、エージェントは連続信念空間の有限部分集合にのみ作用する。
本稿では,各反復において,集合の各信念状態に対して線形プログラムを個別に解いた値反復による近似問題を解く。
最後に,その構造を仮定した値関数が,試料密度が増加するにつれて連続的な状態空間値に収束することを示す。
関連論文リスト
- Self-Distilled Disentangled Learning for Counterfactual Prediction [49.84163147971955]
我々は、SD2$として知られる自己蒸留遠絡フレームワークを提案する。
情報理論を基礎として、複雑な相互情報推定器の設計を伴わずに、理論上独立に不整合表現を鳴らす。
人工と実世界の両方のデータセットを用いて実験を行い,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2024-06-09T16:58:19Z) - Facility Location Games with Scaling Effects [69.28397508730046]
古典的な施設配置問題を考慮し、各エージェントの個々のコスト関数が、スケーリング係数によって乗算された施設からの距離と等しくなる変動を考察する。
戦略と匿名のメカニズムによって達成できる総コストと最大コストの近似比について結果が得られた。
論文 参考訳(メタデータ) (2024-02-29T07:08:18Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Independent Natural Policy Gradient Methods for Potential Games:
Finite-time Global Convergence with Entropy Regularization [28.401280095467015]
本研究では,独立エントロピー規則化自然ポリシー勾配法(NPG)の有限時間収束について検討する。
提案手法は, 作用空間の大きさに依存しないサブ線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2022-04-12T01:34:02Z) - Adaptive Information Belief Space Planning [9.365993173260316]
我々は、不確実性に明示的に対処する報酬関数を使用して、情報決定を効率的に行うことに重点を置いている。
期待される情報理論の報奨関数と結果の値関数のバウンダリを導出する。
そこで我々は,計算時間のごく一部で同一の動作選択を実現するために集約を洗練させる手法を提案する。
論文 参考訳(メタデータ) (2022-01-14T21:12:00Z) - Leveraging Unlabeled Data for Entity-Relation Extraction through
Probabilistic Constraint Satisfaction [54.06292969184476]
シンボリックドメイン知識の存在下でのエンティティ関係抽出の問題を研究する。
本手法では,論理文の正確な意味を捉える意味的損失を用いる。
低データ体制に焦点をあてて、セマンティックな損失がベースラインをはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-03-20T00:16:29Z) - CoinDICE: Off-Policy Confidence Interval Estimation [107.86876722777535]
強化学習における高信頼行動非依存のオフ政治評価について検討する。
様々なベンチマークにおいて、信頼区間推定が既存の手法よりも厳密で精度が高いことが示されている。
論文 参考訳(メタデータ) (2020-10-22T12:39:11Z) - Modal Uncertainty Estimation via Discrete Latent Representation [4.246061945756033]
本稿では,インプットとアウトプットの1対1マッピングを,忠実な不確実性対策とともに学習するディープラーニングフレームワークを提案する。
我々のフレームワークは、現在の最先端手法よりもはるかに正確な不確実性推定を実証している。
論文 参考訳(メタデータ) (2020-07-25T05:29:34Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z) - Scalable Uncertainty for Computer Vision with Functional Variational
Inference [18.492485304537134]
関数空間における変分推論の定式化を利用する。
選択したCNNアーキテクチャを1つのフォワードパスのコストで予測不確実性を推定する。
本研究では,高次元タスクの文脈で高速な学習を可能にする数値的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-06T19:09:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。