論文の概要: On Transportability for Structural Causal Bandits
- arxiv url: http://arxiv.org/abs/2511.17953v1
- Date: Sat, 22 Nov 2025 07:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.537506
- Title: On Transportability for Structural Causal Bandits
- Title(参考訳): 構造的因果帯域の輸送性について
- Authors: Min Woo Park, Sanghack Lee,
- Abstract要約: 構造的因果バンディットフレームワークは、報酬を最大化できないアクションを特定するためのグラフィカルな特徴を提供する。
デプロイ環境での学習を促進するために、ソース環境の事前がどう融合されているかを示す。
得られた帯域幅アルゴリズムは、事前データの情報性に明示的に依存したサブ線形後悔を実現する。
- 参考スコア(独自算出の注目度): 12.969694382964052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents equipped with causal knowledge can optimize their action spaces to avoid unnecessary exploration. The structural causal bandit framework provides a graphical characterization for identifying actions that are unable to maximize rewards by leveraging prior knowledge of the underlying causal structure. While such knowledge enables an agent to estimate the expected rewards of certain actions based on others in online interactions, there has been little guidance on how to transfer information inferred from arbitrary combinations of datasets collected under different conditions -- observational or experimental -- and from heterogeneous environments. In this paper, we investigate the structural causal bandit with transportability, where priors from the source environments are fused to enhance learning in the deployment setting. We demonstrate that it is possible to exploit invariances across environments to consistently improve learning. The resulting bandit algorithm achieves a sub-linear regret bound with an explicit dependence on informativeness of prior data, and it may outperform standard bandit approaches that rely solely on online learning.
- Abstract(参考訳): 因果知識を備えた知的エージェントは、不要な探索を避けるために行動空間を最適化することができる。
構造因果包帯の枠組みは、根底にある因果構造の事前知識を活用することで、報酬を最大化できない行動を特定するためのグラフィカルな特徴を提供する。
このような知識により、エージェントはオンラインでのインタラクションにおいて、あるアクションの期待される報酬を見積もることができるが、異なる条件下で収集されたデータセットの任意の組み合わせから推測される情報(観察的または実験的)と異種環境からの情報の転送方法はほとんどない。
本稿では,移動性を有する構造的因果帯域について検討する。そこでは,ソース環境からの事前情報を融合させて,展開環境における学習を強化する。
環境間の不変性を利用して学習を継続的に改善できることを実証する。
結果として得られたバンディットアルゴリズムは、事前データの情報性に明示的に依存したサブ線形後悔を達成し、オンライン学習にのみ依存する標準バンディットアプローチより優れている可能性がある。
関連論文リスト
- Actionable Counterfactual Explanations Using Bayesian Networks and Path Planning with Applications to Environmental Quality Improvement [4.041834517339835]
そこで本研究では,実効的対実的説明のための手法を開発した。
データは密度推定器の学習にのみ使用される。
実環境保護庁のデータセットを用いて,本アルゴリズムを検証した。
論文 参考訳(メタデータ) (2025-08-04T17:20:50Z) - Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Reinforcement Learning with Lookahead Information [7.696213902533885]
エージェントが報酬や移行の実現を現在の状態で観察し、どの行動をとるかを決定するという強化学習問題について検討する。
これまでの研究は、このルックアヘッド情報が収集された報酬を大幅に増加させることを示している。
我々は、ルックアヘッド情報を組み込むことができる確率効率の高い学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-06-04T12:29:51Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Efficient Transfer Learning via Causal Bounds [8.981637739384674]
我々は、因果側情報がどのようにオンライン学習を加速するかを分析し、データ削減の実験を行う。
我々の分析は、因果側情報がどのようにオンライン学習を加速させるか、およびデータ削減の実験を正確に特徴付ける。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Attribute-Guided Adversarial Training for Robustness to Natural
Perturbations [64.35805267250682]
本稿では,属性空間への分類器の露出を最大化するために,新しいサンプルを生成することを学習する逆学習手法を提案する。
我々のアプローチは、ディープニューラルネットワークが自然に発生する摂動に対して堅牢であることを可能にする。
論文 参考訳(メタデータ) (2020-12-03T10:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。