Fugu-MT 論文翻訳(概要): Online Learning for Multi-Layer Hierarchical Inference under Partial and Policy-Dependent Feedback

論文の概要: Online Learning for Multi-Layer Hierarchical Inference under Partial and Policy-Dependent Feedback

arxiv url: http://arxiv.org/abs/2603.04247v1
Date: Wed, 04 Mar 2026 16:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.402174
Title: Online Learning for Multi-Layer Hierarchical Inference under Partial and Policy-Dependent Feedback
Title（参考訳）: 部分的およびポリシー依存フィードバックに基づく階層的多層推論のためのオンライン学習
Authors: Haoran Zhang, Seohyeon Cha, Hasan Burhan Beytur, Kevin S Chan, Gustavo de Veciana, Haris Vikalo,
Abstract要約: 本研究では,長期的資源制約と端末のみのフィードバックの下で階層的推論のためのオンラインルーティングについて検討する。 Lyapunov最適化と統合された分散最適化EXP4に基づくアルゴリズムを開発し、疎度およびポリシー依存のフィードバックの下で、偏りのない損失推定と安定した学習を実現する。
参考スコア（独自算出の注目度）: 22.44021085629083
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Hierarchical inference systems route tasks across multiple computational layers, where each node may either finalize a prediction locally or offload the task to a node in the next layer for further processing. Learning optimal routing policies in such systems is challenging: inference loss is defined recursively across layers, while feedback on prediction error is revealed only at a terminal oracle layer. This induces a partial, policy-dependent feedback structure in which observability probabilities decay with depth, causing importance-weighted estimators to suffer from amplified variance. We study online routing for multi-layer hierarchical inference under long-term resource constraints and terminal-only feedback. We formalize the recursive loss structure and show that naive importance-weighted contextual bandit methods become unstable as feedback probability decays along the hierarchy. To address this, we develop a variance-reduced EXP4-based algorithm integrated with Lyapunov optimization, yielding unbiased loss estimation and stable learning under sparse and policy-dependent feedback. We provide regret guarantees relative to the best fixed routing policy in hindsight and establish near-optimality under stochastic arrivals and resource constraints. Experiments on large-scale multi-task workloads demonstrate improved stability and performance compared to standard importance-weighted approaches.
Abstract（参考訳）: 階層的推論システムは複数の計算層にタスクをルーティングし、各ノードが予測をローカルに終了するか、次のレイヤのノードにタスクをオフロードして処理する。推論損失は層間で再帰的に定義され、予測エラーに対するフィードバックは終端オラクル層でのみ明らかにされる。これにより、可観測性確率が深さとともに減衰する部分的かつポリシーに依存したフィードバック構造が導き出され、重要重み付き推定器は増幅された分散に悩まされる。長期資源制約と端末のみのフィードバックの下で,多層階層推論のためのオンラインルーティングについて検討する。我々は再帰的損失構造を定式化し、階層に沿ってフィードバック確率が減衰するにつれて、重要度重み付けされた文脈帯域幅法が不安定になることを示す。そこで本研究では,Lyapunov最適化と統合された分散還元EXP4に基づくアルゴリズムを開発し,疎度およびポリシー依存フィードバック下での非バイアス損失推定と安定学習を実現する。我々は、後から最も優れた固定ルーティングポリシーに対する後悔の保証を提供し、確率的到着と資源制約の下で、ほぼ最適性を確立する。大規模マルチタスクワークロードの実験では、標準的な重要度重み付けアプローチと比較して安定性とパフォーマンスが改善されている。

関連論文リスト

Expected Return Causes Outcome-Level Mode Collapse in Reinforcement Learning and How to Fix It with Inverse Probability Scaling [2.8825582215429186]
結果-レベルモードの崩壊は、期待されたリターン自体の構造的な結果であることを示す。学習信号から結果周波数を除去する逆確率スケーリングという,最小限の補正を提案する。
論文参考訳（メタデータ） (2026-01-29T13:03:33Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。政策最適化のためのグラフィカル強化学習フレームワークを提案する。理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文参考訳（メタデータ） (2026-01-19T02:18:45Z)
Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文参考訳（メタデータ） (2025-10-27T23:10:06Z)
Joint Admission Control and Resource Allocation of Virtual Network Embedding via Hierarchical Deep Reinforcement Learning [69.00997996453842]
本稿では,仮想ネットワークの埋め込みにおいて,入出力制御と資源配分を併用して学習する深層強化学習手法を提案する。 HRL-ACRAは,受入率と長期平均収益の両面で,最先端のベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2024-06-25T07:42:30Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文参考訳（メタデータ） (2023-12-25T18:51:23Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
On Finite-Sample Analysis of Offline Reinforcement Learning with Deep ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文参考訳（メタデータ） (2021-03-11T14:01:14Z)
Reinforcement Learning for POMDP: Partitioned Rollout and Policy Iteration with Application to Autonomous Sequential Repair Problems [2.6389022766562236]
有限状態と制御空間を持つ動的プログラミング問題と部分状態観測について考察する。本稿では,マルチステップのルックアヘッド,既知の基本方針付きロールアウト,端末コスト関数近似を用いたアルゴリズムについて論じる。
論文参考訳（メタデータ） (2020-02-11T02:38:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。