論文の概要: Frugal inference for control
- arxiv url: http://arxiv.org/abs/2406.14427v3
- Date: Wed, 03 Sep 2025 14:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 17:24:09.02638
- Title: Frugal inference for control
- Title(参考訳): 制御のためのフルーガー推論
- Authors: Itzel Olivos-Castillo, Paul Schrater, Xaq Pitkow,
- Abstract要約: 人工知能の進歩の鍵となる課題は、外部の動きとリソース利用の適切なバランスを達成することである。
我々は,POMDPフレームワークのバージョンを開発し,推論によって得られた情報を,タスクのパフォーマンスや動作の労力とともに最適化する必要があるリソースとして扱う。
この研究は、脳と機械の両方が不確実性の下で効果的だが資源効率のよい制御に使用できる新しいタイプの有理計算の基礎を提供する。
- 参考スコア(独自算出の注目度): 2.20480252274709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in advancing artificial intelligence is achieving the right balance between utility maximization and resource use by both external movement and internal computation. While this trade-off has been studied in fully observable settings, our understanding of resource efficiency in partially observable environments remains limited. Motivated by this challenge, we develop a version of the POMDP framework where the information gained through inference is treated as a resource that must be optimized alongside task performance and motion effort. By solving this problem in environments described by linear-Gaussian dynamics, we uncover fundamental principles of resource efficiency. Our study reveals a phase transition in the inference, switching from a Bayes-optimal approach to one that strategically leaves some uncertainty unresolved. This frugal behavior gives rise to a structured family of equally effective strategies, facilitating adaptation to later objectives and constraints overlooked during the original optimization. We illustrate the applicability of our framework and the generality of the principles we derived using two nonlinear tasks. Overall, this work provides a foundation for a new type of rational computation that both brains and machines could use for effective but resource-efficient control under uncertainty.
- Abstract(参考訳): 人工知能の進歩における重要な課題は、外部の動きと内部計算の両方によって、ユーティリティの最大化とリソース利用の適切なバランスを達成することである。
このトレードオフは、完全に観測可能な環境で研究されているが、部分的に観測可能な環境での資源効率の理解は限られている。
この課題に乗じて,提案するPOMDPフレームワークは,タスクのパフォーマンスや動作の労力とともに最適化されなければならないリソースとして,推論によって得られた情報を扱えるようにしている。
線形ガウス力学によって記述された環境でこの問題を解くことにより、資源効率の基本的な原理を明らかにする。
ベイズ最適アプローチから戦略的に不確実性を未解決のまま残すアプローチに切り替える。
このフリゴールな振る舞いは、同様に効果的な戦略の構造化されたファミリーを生み出し、後の目的への適応と、元の最適化中に見落とされた制約を促進させる。
本稿では,このフレームワークの適用性と,2つの非線形タスクを用いて導出した原理の一般化について述べる。
全体として、この研究は、脳と機械の両方が不確実性の下で効果的だが資源効率の高い制御に使用できる新しいタイプの有理計算の基礎を提供する。
関連論文リスト
- Cost-aware Stopping for Bayesian Optimization [53.34052774820105]
本稿では,様々な評価コストに適応し,チューニングが不要なベイズ最適化のためのコスト対応停止則を提案する。
我々は,最先端の取得関数と組み合わせた場合,停止規則によって得られる期待累積評価コストを拘束する理論的な保証を証明した。
論文 参考訳(メタデータ) (2025-07-16T17:54:14Z) - Communication Efficient Decentralization for Smoothed Online Convex Optimization [9.449153668916098]
マルチエージェントSmoothed Online Convex Optimization(SOCO)問題について検討し,通信グラフを通してN$エージェントが対話する。
各ラウンドにおいて、各エージェント$i$は、オンラインの方法で、強い凸打撃コスト関数$fi_t$を受け取る。
通信グラフが時間とともに任意かつ適応的に変化する場合でも,我々の結果は維持される。
論文 参考訳(メタデータ) (2024-11-13T05:59:04Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Quantization for decentralized learning under subspace constraints [61.59416703323886]
エージェントがサブスペース制約を最小化するために個々のコスト関数を持つ分散最適化問題を考察する。
本稿では,エージェントが確率化量子化器を用いて推定値を圧縮する適応分散型戦略を提案し,検討する。
この分析は、量子化ノイズのいくつかの一般的な条件下では、平均二乗誤差と平均ビットレートの両方で戦略が安定であることを示している。
論文 参考訳(メタデータ) (2022-09-16T09:38:38Z) - Should All Proposals be Treated Equally in Object Detection? [110.27485090952385]
オブジェクト検出器の複雑さと精度のトレードオフは、リソース制約されたビジョンタスクにとって重要な問題である。
検出効率の改善には、提案の不平等な処理に向けて、パラダイムシフトが必要であると仮定されている。
これにより、利用可能な計算予算がより有効になり、同じFLOPSの精度が向上する。
論文 参考訳(メタデータ) (2022-07-07T18:26:32Z) - Planning with Dynamically Estimated Action Costs [2.8326418377665346]
実際のAI計画アプリケーションには、アクションコストに関する情報が不可欠だ。
近年のアプローチでは、データからしばしば学習されるブラックボックス外部アクションコスト推定器が計画段階で適用されている。
本稿では,行動コストを考慮した決定論的計画の一般化を提案する。
論文 参考訳(メタデータ) (2022-06-08T21:10:37Z) - Efficient Online Linear Control with Stochastic Convex Costs and Unknown
Dynamics [0.0]
本稿では,最良安定化線形コントローラに対して,最適$sqrtT$後悔率を得る計算効率のよいアルゴリズムを提案する。
これまでの研究とは対照的に,我々のアルゴリズムは顔の不確実性パラダイムにおける最適化に基づいている。
論文 参考訳(メタデータ) (2022-03-02T15:19:20Z) - An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。
標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。
本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文 参考訳(メタデータ) (2021-12-09T23:13:57Z) - Utilizing Redundancy in Cost Functions for Resilience in Distributed
Optimization and Learning [1.8414221462731502]
本稿では,サーバアーキテクチャにおけるレジリエントな分散最適化と機械学習の問題について考察する。
システムはサーバと複数のエージェントから構成され、各エージェントはローカルなコスト関数を持つ。
エージェントのいくつかが非同期で、/またはビザンティンの欠陥がある場合を考えます。
論文 参考訳(メタデータ) (2021-10-21T02:41:19Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Controlling Computation versus Quality for Neural Sequence Models [42.525463454120256]
条件付き計算は、推論中にニューラルシーケンスモデル(トランスフォーマー)をより効率的かつ計算に適応させる。
i)WMT英仏訳と(ii)教師なし表現学習(BERT)の2つの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-02-17T17:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。