論文の概要: Transfer Learning with Partially Observable Offline Data via Causal Bounds
- arxiv url: http://arxiv.org/abs/2308.03572v4
- Date: Fri, 03 Jan 2025 18:43:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:10:18.936079
- Title: Transfer Learning with Partially Observable Offline Data via Causal Bounds
- Title(参考訳): 因果境界による部分的に観測可能なオフラインデータによる移動学習
- Authors: Xueping Gong, Wei You, Jiheng Zhang,
- Abstract要約: 本稿では,部分的に観測可能なコンテキスト帯の移動学習について検討する。
エージェントは不完全な情報と隠れた共同設立者への限られたアクセスで操作する。
本稿では,未知分布の関数的制約を線形制約に識別する効率的な手法を提案する。
この手法は推定誤差を考慮し、強い収束特性を示し、堅牢で信頼性の高い因果境界を保証する。
- 参考スコア(独自算出の注目度): 8.981637739384674
- License:
- Abstract: Transfer learning has emerged as an effective approach to accelerate learning by integrating knowledge from related source agents. However, challenges arise due to data heterogeneity-such as differences in feature sets or incomplete datasets-which often results in the nonidentifiability of causal effects. In this paper, we investigate transfer learning in partially observable contextual bandits, where agents operate with incomplete information and limited access to hidden confounders. To address the challenges posed by unobserved confounders, we formulate optimization problems to derive tight bounds on the nonidentifiable causal effects. We then propose an efficient method that discretizes the functional constraints of unknown distributions into linear constraints, allowing us to sample compatible causal models through a sequential process of solving linear programs. This method takes into account estimation errors and exhibits strong convergence properties, ensuring robust and reliable causal bounds. Leveraging these causal bounds, we improve classical bandit algorithms, achieving tighter regret upper and lower bounds relative to the sizes of action sets and function spaces. In tasks involving function approximation, which are crucial for handling complex context spaces, our method significantly improves the dependence on function space size compared to previous work. We formally prove that our causally enhanced algorithms outperform classical bandit algorithms, achieving notably faster convergence rates. The applicability of our approach is further illustrated through an example of offline pricing policy learning with censored demand. Simulations confirm the superiority of our approach over state-of-the-art methods, demonstrating its potential to enhance contextual bandit agents in real-world applications, especially when data is scarce, costly, or restricted due to privacy concerns.
- Abstract(参考訳): 伝達学習は、関連するソースエージェントからの知識を統合することで学習を加速するための効果的なアプローチとして現れてきた。
しかし、特徴集合や不完全なデータセットの違いなど、データの不均一性によって生じる課題は、因果効果の非識別性をもたらすことが多い。
本稿では,不完全な情報と隠れた共同設立者への限られたアクセスをエージェントが行う,部分的に観察可能なコンテキスト帯の移動学習について検討する。
非保存的共同設立者による課題に対処するため、最適化問題を定式化し、不特定因果効果の厳密な境界を導出する。
そこで我々は,未知分布の関数的制約を線形制約に分解し,線形プログラムを逐次的に解くことによって,適合する因果モデルをサンプリングする効率的な手法を提案する。
この手法は推定誤差を考慮し、強い収束特性を示し、堅牢で信頼性の高い因果境界を保証する。
これらの因果的境界を利用することで、古典的バンディットアルゴリズムを改良し、作用集合や函数空間のサイズに対して、より厳密な後悔と下限を達成する。
複雑なコンテキスト空間を扱う上で重要な関数近似を含むタスクにおいて,本手法は従来よりも関数空間サイズへの依存を著しく改善する。
我々は、因果的に強化されたアルゴリズムが古典的帯域幅アルゴリズムより優れており、顕著に高速な収束率を達成することを正式に証明した。
当社のアプローチの適用性はさらに、検閲された需要を伴うオフライン価格ポリシー学習の例を通して説明される。
シミュレーションは、最先端の手法に対する我々のアプローチの優位性を確認し、特にデータが不足し、コストがかかる、あるいはプライバシー上の懸念のために制限された場合に、現実世界のアプリケーションにおけるコンテキスト的バンディットエージェントを強化する可能性を示す。
関連論文リスト
- Efficient Differentiable Discovery of Causal Order [14.980926991441342]
Intersortは、変数の因果順序を発見するためのスコアベースの方法である。
我々は、差別化可能なソートとランキング技術を用いてインターソートを再構築する。
我々の研究は、因果順の正規化を微分可能なモデルの訓練に効率的に組み込むための扉を開く。
論文 参考訳(メタデータ) (2024-10-11T13:11:55Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - dugMatting: Decomposed-Uncertainty-Guided Matting [83.71273621169404]
そこで本稿では, 明確に分解された不確かさを探索し, 効率よく効率よく改善する, 分解不確実性誘導型マッチングアルゴリズムを提案する。
提案したマッチングフレームワークは,シンプルで効率的なラベリングを用いて対話領域を決定する必要性を緩和する。
論文 参考訳(メタデータ) (2023-06-02T11:19:50Z) - On data-driven chance constraint learning for mixed-integer optimization
problems [0.0]
本稿では,混合整数線形最適化問題に着目したCCL手法を提案する。
CCLは線形化可能な機械学習モデルを使用して、学習変数の条件量子を推定する。
実践者が使用するオープンアクセスソフトウェアが開発されている。
論文 参考訳(メタデータ) (2022-07-08T11:54:39Z) - Fusion and Orthogonal Projection for Improved Face-Voice Association [15.938463726577128]
顔と声の関連性について検討する。
両モードの相補的手がかりを利用して, リッチなフューズド埋め込みを形成する軽量なプラグアンドプレイ機構を提案する。
論文 参考訳(メタデータ) (2021-12-20T12:33:33Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。