論文の概要: Cost of Structural Learning Under Censored Feedback: A Threshold-Bandit Approach
- arxiv url: http://arxiv.org/abs/2605.27076v1
- Date: Tue, 26 May 2026 14:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.221421
- Title: Cost of Structural Learning Under Censored Feedback: A Threshold-Bandit Approach
- Title(参考訳): 補償フィードバックによる構造学習のコスト--閾値・帯域アプローチ
- Authors: Michael Ledford, William Regli,
- Abstract要約: 多くのマルチエージェントアプリケーションでは、タスクは、未知のサイズのしきい値を満たす連立によって実行される場合にのみ報酬を得る。
我々はこの設定をThreshold-Activated Cooperative Multi-Armed Bandit (TAC-MAB) として定式化する。
集中型アルゴリズム (C-TAC) は, 累積的後悔のO(log T) を構造探索用語として達成し, 検閲されたフィードバックの下で実現可能性の解決コストを抑えることを示す。
次に、D-TACという分散型イベントトリガープロトコルを導入し、エージェントは、その構造的信念が変化したときにのみ同期する。
- 参考スコア(独自算出の注目度): 0.18416014644193066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many multi-agent applications, tasks yield rewards only when executed by a coalition meeting an unknown size threshold; otherwise, feedback is fully censored. This censorship creates an identifiability problem: agents cannot distinguish stochastic failure from insufficient coordination. We formalize this setting as the Threshold-Activated Cooperative Multi-Armed Bandit (TAC-MAB) and analyze it under both centralized and decentralized coordination. We show that a centralized algorithm (C-TAC) achieves cumulative regret O(log T), decomposed into a structural-search term that captures the cost of resolving feasibility under censored feedback and a statistical-monitoring term for value estimation. We then introduce D-TAC, a decentralized event-triggered protocol in which agents synchronize only when their structural beliefs change. Empirically, D-TAC achieves a 23x reduction in communication relative to the centralized baseline while preserving feasibility alignment under conservative belief fusion. These results characterize the coordination cost of learning under censored feedback and show that near-centralized communication efficiency is achievable without continuous synchronization.
- Abstract(参考訳): 多くのマルチエージェントアプリケーションでは、タスクは未知のサイズのしきい値を満たす連立によって実行される場合にのみ報酬を与える。
エージェントは確率的失敗と不十分な調整を区別できない。
我々は、この設定をThreshold-Activated Cooperative Multi-Armed Bandit (TAC-MAB) として定式化し、集中的および分散的協調の下で分析する。
集中型アルゴリズム (C-TAC) が累積的後悔O(log T) を達成することを示す。
次に、D-TACという分散型イベントトリガープロトコルを導入し、エージェントは、その構造的信念が変化したときにのみ同期する。
実証的に、D-TACは、保守的信念融合の下で実現可能性アライメントを維持しながら、集中ベースラインに対する通信の23倍の減少を達成する。
これらの結果は、検閲されたフィードバック下での学習のコーディネーションコストを特徴付け、連続的な同期なしに、ほぼ分散化された通信効率が達成可能であることを示す。
関連論文リスト
- Escaping the Diversity Trap in Robotic Manipulation via Anchor-Centric Adaptation [50.23374353859762]
多様な単発デモを収集することで「最大限のカバレッジ」を達成できる。
我々は、この現象を包括的-密度トレードオフとして定式化する。
Anchor-Centric Adaptation (ACA) は、2段階のフレームワークで、まずコアアンカーでの繰り返しデモを通じてポリシースケルトンを安定化し、次に教師力によるエラーマイニングと制約付き残差更新を通じて高リスク境界までカバー範囲を広げる。
論文 参考訳(メタデータ) (2026-05-08T07:35:24Z) - The Cost of Consensus: Malignant Epistemic Herding and Adaptive Gating in Distributed Multi-Agent Search [2.435326482104274]
コーディネーションはタスク完了を支援するための信念を共有するために必要だが、通信は帯域幅を犠牲にし、遅延を導入し、もしうまく行わなければ、集合的推論を劣化させる可能性がある。
この緊張は、分散センシングネットワーク、自律偵察、協調サイバー防御など、帯域幅に制約のあるデプロイメントにおいて特に深刻である。
我々は、この区別を形式化し、Jensen-Shannon Divergence や、コンセンサスに対するレートのような調整指標だけでは検出できないことを示す。
論文 参考訳(メタデータ) (2026-05-07T22:07:25Z) - Scalable and Verifiable Federated Learning for Cross-Institution Financial Fraud Detection [0.0]
本研究では,不正検出のためのセキュアアグリゲーションフレームワークであるDynamic Sharded Learning (DSFL)を提案する。
DSFLはトポロジを動的シャーディングに置き換え、O(N2) から m(N2) への複雑さを減らす
インサイダーの脅威を軽減するために,加法的同型コミットメント機構である線形積分タグを導入する。
論文 参考訳(メタデータ) (2026-04-25T20:49:22Z) - Cognitive Friction: A Decision-Theoretic Framework for Bounded Deliberation in Tool-Using Agents [0.0]
制約のないツール使用エージェントは、どの情報ソースをクエリして実行するかを決めなければなりません。
本稿では,これらの障害モードを認知的摩擦によって形式化する決定論的枠組みであるTCAを提案する。
我々は,TCAを2つの制御された環境において,停止品質,混雑時の行動選択,時間的緊急性の分離を図った。
論文 参考訳(メタデータ) (2026-03-31T17:30:25Z) - Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions [89.52532304099522]
フェデレートラーニング(FL)は、クライアントが生データを集中せずに共有モデルを共同でトレーニングすることを可能にし、固有のプライバシーレベルを提供する。
グラデーションとモデル更新は機密情報を漏洩する可能性があるが、悪意のあるサーバはビザンティン操作のような敵攻撃をマウントする可能性がある。
これらの脆弱性は、統合されたフレームワーク内の差分プライバシー(DP)とビザンチンの堅牢性に対処する必要性を強調している。
Byz-Clip21-SGD2Mを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:39:09Z) - Pay Attention to CTC: Fast and Robust Pseudo-Labelling for Unified Speech Recognition [61.39209522608919]
統一音声認識は、音声、視覚、および聴覚の音声認識のための単一のモデルを訓練するための半教師付きフレームワークとして登場した。
そこでは,CTCの擬似ラベルをアテンションターゲットを生成するためにデコーダに入力するCTC駆動型教師強制方式を提案する。
CTCとCTC駆動のアテンション擬似ラベルは同じ長さであるため、デコーダは両方を同時に予測できる。
論文 参考訳(メタデータ) (2026-02-22T19:38:21Z) - Controlled disagreement improves generalization in decentralized training [10.764160559530845]
集中型トレーニングは、コンセンサスエラーが収束と一般化を損なうため、集中型トレーニングよりも劣ると見なされることが多い。
本研究は,Adaptive Consensus (DSGD-AC) を用いた分散SGDの導入により,この視点に挑戦する。
これらの誤差はランダムノイズではなく、支配的なヘッセン部分空間と体系的に一致し、フラットなミニマに向けて最適化を導く構造的摂動として機能することを証明する。
論文 参考訳(メタデータ) (2026-02-02T23:14:37Z) - VALID: a Validated Algorithm for Learning in Decentralized Networks with Possible Adversarial Presence [13.612214163974459]
不均一なデータを持つ非方向性ネットワークに対して、検証された分散学習のパラダイムを導入する。
VALIDプロトコルは、検証された学習保証を達成した最初のプロトコルである。
興味深いことに、VALIDは敵のない環境での最適なパフォーマンス指標を維持している。
論文 参考訳(メタデータ) (2024-05-12T15:55:43Z) - Decentralized SGD and Average-direction SAM are Asymptotically
Equivalent [101.37242096601315]
分散勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。
既存の理論では、分散化は必ず一般化される。
論文 参考訳(メタデータ) (2023-06-05T14:19:52Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。