論文の概要: Information-Theoretic Generalization Bounds for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2605.12190v1
- Date: Tue, 12 May 2026 14:31:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.925931
- Title: Information-Theoretic Generalization Bounds for Sequential Decision Making
- Title(参考訳): 逐次決定のための情報理論的一般化境界
- Authors: Futoshi Futami, Masahiro Fujisawa,
- Abstract要約: スーパーサンプル構造に基づく情報理論の一般化境界は、バッチ i.i.d.setting におけるアルゴリズム依存の一般化解析のための中心的なツールである。
既存のスーパーサンプル条件付き相互情報境界は、オンライン学習、ストリーミングアクティブ学習、盗賊といったシーケンシャルな意思決定問題に直接適用されない。
我々は,ゴースト・コーディネート比較に用いる証明側拡張から学習者のフィルタリングを分離するシーケンシャル・スーパーサンプル・フレームワークを開発した。
- 参考スコア(独自算出の注目度): 10.968987566851263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information-theoretic generalization bounds based on the supersample construction are a central tool for algorithm-dependent generalization analysis in the batch i.i.d.~setting. However, existing supersample conditional mutual information (CMI) bounds do not directly apply to sequential decision-making problems such as online learning, streaming active learning, and bandits, where data are revealed adaptively and the learner evolves along a causal trajectory. To address this limitation, we develop a sequential supersample framework that separates the learner filtration from a proof-side enlargement used for ghost-coordinate comparisons. Under a row-wise exchangeability assumption, the sequential generalization gap is controlled by sequential CMI, a sum of roundwise selector--loss information terms. We also establish a Bernstein-type refinement that yields faster rates under suitable variance conditions. The selector-SCMI proof strategy applies to online learning, streaming active learning with importance weighting, and stochastic multi-armed bandits.
- Abstract(参考訳): スーパーサンプル構造に基づく情報理論の一般化境界は、バッチ i.i.d.–setting におけるアルゴリズム依存の一般化解析のための中心的なツールである。
しかし、既存の超サンプル条件付き相互情報(CMI)境界は、オンライン学習、ストリーミングアクティブラーニング、バンディットといった逐次的意思決定問題に直接適用されず、データを適応的に明らかにし、学習者は因果軌道に沿って進化する。
この制限に対処するために、学習者のフィルタリングをゴースト・コーディネート比較に用いる証明側拡大から分離するシーケンシャルなスーパーサンプル・フレームワークを開発する。
行ワイド交換可能性仮定の下で、逐次一般化ギャップは、ラウンドワイドセレクタ-ロス情報項の和であるシーケンシャルCMIによって制御される。
また、適切な分散条件下でより高速な速度が得られるバーンスタイン型改良法も確立する。
セレクタ-SCMI証明戦略は、オンライン学習、重み付けによるストリーミングアクティブラーニング、確率的マルチアームバンディットに適用される。
関連論文リスト
- Cross-Sample Relational Fusion: Unifying Domain Generalization and Class-Incremental Learning [83.67663266193308]
CIL(Class-Incremental Learning)は、学習システムにおいて、それまでの知識を維持しつつ、新しいクラスを学ぶことを必要とする。
自動運転車のような現実のシナリオでは、晴れた日に都市部の道路で訓練されたシステムは、後に農村部や高速道路環境で運用する必要がある。
ドメインシフトと破滅的な忘れを同時に解決する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-09T09:49:13Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Topic Identification in LLM Input-Output Pairs through the Lens of Information Bottleneck [0.0]
幾何学的クラスタリングのための決定論的情報ボトルネック(DIB)に基づく基本的トピック識別手法を開発した。
我々の重要な貢献は、DIB法を計算効率の良い上界を持つ難解なKL発散項に代えて、高次元データのための実用的なアルゴリズムに変換することである。
論文 参考訳(メタデータ) (2025-08-26T20:00:51Z) - Q-Learning with Clustered-SMART (cSMART) Data: Examining Moderators in the Construction of Clustered Adaptive Interventions [3.9650359172757743]
クラスタ適応介入(cAI)は、結果を改善するためにクラスタレベルの介入をどのように調整するかを実践者の指導する一連の決定ルールである。
M-out-of-N Cluster Bootstrapを用いたクラスタ型Qラーニングフレームワークを導入し、最適なcAIを定義する上で、候補の調整変数のセットが有用かどうかを評価する。
論文 参考訳(メタデータ) (2025-05-01T19:24:39Z) - Deep Reversible Consistency Learning for Cross-modal Retrieval [12.174193446177778]
クロスモーダル検索(CMR)は通常、マルチモーダルサンプル間の類似性を直接測定するために共通の表現を学習する。
既存のCMR法の多くは、ペアでマルチモーダルサンプルを仮定し、共通表現を学ぶために共同トレーニングを採用している。
クロスモーダル検索のためのDeep Reversible Consistency Learning (DRCL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-10T03:35:22Z) - Stochastic Gradient Descent with Adaptive Data [4.119418481809095]
勾配降下(SGD)は、オンライン学習シナリオにおいて特に有用である強力な最適化手法である。
オペレーションリサーチにおけるポリシー最適化問題へのSGDの適用には、環境を変えてポリシー更新に使用するデータに影響を与えるという、明確な課題が伴う。
過去の決定が生成したデータに与える影響は、勾配推定におけるバイアスを導入し、iidケースに存在しないオンライン学習の不安定性の潜在的な原因を示す。
適応データによるSGDの収束速度は, 政策誘起力学の混合時間に係わる限り, 古典的イド設定とほとんど同様であることを示す。
論文 参考訳(メタデータ) (2024-10-02T02:58:32Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。