論文の概要: Linear Combinatorial Semi-Bandit with Causally Related Rewards
- arxiv url: http://arxiv.org/abs/2212.12923v1
- Date: Sun, 25 Dec 2022 16:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 15:01:13.964632
- Title: Linear Combinatorial Semi-Bandit with Causally Related Rewards
- Title(参考訳): リニアコンビナートセミバンドと因果関係リワード
- Authors: Behzad Nourani-Koliji, Saeed Ghoorchian, and Setareh Maghsudi
- Abstract要約: ネットワークのトポロジを学習することで因果関係を決定する政策を提案する。
提案アルゴリズムのサブ線形後悔境界を確立する。
- 参考スコア(独自算出の注目度): 5.347237827669861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a sequential decision-making problem, having a structural dependency
amongst the reward distributions associated with the arms makes it challenging
to identify a subset of alternatives that guarantees the optimal collective
outcome. Thus, besides individual actions' reward, learning the causal
relations is essential to improve the decision-making strategy. To solve the
two-fold learning problem described above, we develop the 'combinatorial
semi-bandit framework with causally related rewards', where we model the causal
relations by a directed graph in a stationary structural equation model. The
nodal observation in the graph signal comprises the corresponding base arm's
instantaneous reward and an additional term resulting from the causal
influences of other base arms' rewards. The objective is to maximize the
long-term average payoff, which is a linear function of the base arms' rewards
and depends strongly on the network topology. To achieve this objective, we
propose a policy that determines the causal relations by learning the network's
topology and simultaneously exploits this knowledge to optimize the
decision-making process. We establish a sublinear regret bound for the proposed
algorithm. Numerical experiments using synthetic and real-world datasets
demonstrate the superior performance of our proposed method compared to several
benchmarks.
- Abstract(参考訳): 逐次的な意思決定問題では、腕に関連する報酬分布に構造的依存があるため、最適な集合結果を保証する選択肢のサブセットを特定することは困難である。
したがって、個々の行動の報酬に加えて、因果関係を学ぶことは意思決定戦略を改善するために不可欠である。
上述した2次元学習問題を解くため、定常構造方程式モデルにおいて、有向グラフによる因果関係をモデル化する「因果関係を持つ組合せ半帯域フレームワーク」を開発した。
グラフ信号の結節観察は、対応するベースアームの即時報酬と、他のベースアームの報酬の因果的影響による追加の用語とを含む。
目的は、ベースアームの報酬の線形関数であり、ネットワークトポロジーに強く依存する長期的な平均報酬を最大化することである。
この目的を達成するために、ネットワークのトポロジを学習して因果関係を決定する政策を提案し、同時にこの知識を利用して意思決定プロセスを最適化する。
提案アルゴリズムのサブ線形後悔境界を確立する。
合成および実世界のデータセットを用いた数値実験により,提案手法の性能をいくつかのベンチマークと比較した。
関連論文リスト
- ExDBN: Exact learning of Dynamic Bayesian Networks [2.2499166814992435]
本稿では,データから因果学習を行うためのスコアベースの学習手法を提案する。
提案手法は, 最大25の時系列の小型・中規模の合成インスタンスに適用した場合, 優れた結果が得られた。
バイオサイエンスとファイナンスにおける2つの興味深い応用は、この方法を直接適用することで、高度に正確でグローバルに収束した解法を開発する機会をさらに強調するものである。
論文 参考訳(メタデータ) (2024-10-21T15:27:18Z) - Piecewise-Stationary Combinatorial Semi-Bandit with Causally Related
Rewards [5.347237827669861]
本稿では,因果関係の報酬を用いた定常半帯域問題について検討する。
非定常環境では、ベースアームの分布の変化、報酬間の因果関係、またはその両方が報酬生成プロセスを変化させる。
この問題は半帯域設定で増加し、意思決定者は選択したアームの束の結果のみを観察する。
論文 参考訳(メタデータ) (2023-07-26T12:06:13Z) - Non-stationary Delayed Combinatorial Semi-Bandit with Causally Related
Rewards [7.0997346625024]
我々は、因果関係の報酬で非定常かつ遅延半帯域問題を定式化する。
遅延したフィードバックから構造的依存関係を学習し、それを利用して意思決定を最適化する政策を開発する。
イタリアにおけるCovid-19の拡散に最も寄与する地域を検出するために, 合成および実世界のデータセットを用いて数値解析により評価を行った。
論文 参考訳(メタデータ) (2023-07-18T09:22:33Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised
Relation Extraction [60.80849503639896]
非教師なし関係抽出は、関係範囲や分布に関する事前情報のない自然言語文からエンティティ間の関係を抽出することを目的としている。
本稿では,階層間注目を用いた階層的特徴空間から階層的信号を導出する機能を持つ,HiUREという新しいコントラスト学習フレームワークを提案する。
2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-05-04T17:56:48Z) - It Takes Two Flints to Make a Fire: Multitask Learning of Neural
Relation and Explanation Classifiers [40.666590079580544]
一般化と説明可能性の間の緊張を緩和する関係抽出のための説明可能なアプローチを提案する。
提案手法では,関係抽出のための分類器を共同で訓練するマルチタスク学習アーキテクチャを用いる。
このアプローチにグローバルな説明をもたらすために、モデル出力をルールに変換する。
論文 参考訳(メタデータ) (2022-04-25T03:53:12Z) - Multi-task Learning of Order-Consistent Causal Graphs [59.9575145128345]
我々は、$K関連ガウス非巡回グラフ(DAG)の発見問題を考える。
マルチタスク学習環境下では, 線形構造方程式モデルを学習するためのMLE ($l_1/l$-regularized maximum chance estimator) を提案する。
理論的には、関係するタスクにまたがるデータを活用することで、因果順序を復元する際のサンプルの複雑さをより高めることができることを示す。
論文 参考訳(メタデータ) (2021-11-03T22:10:18Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Loss Bounds for Approximate Influence-Based Abstraction [81.13024471616417]
影響に基づく抽象化は、システムの残りの部分が与える「影響」とともに、局所的なサブプロブレムをモデル化することでレバレッジを得ることを目的としている。
本稿では,理論的観点から,そのような手法の性能について考察する。
交叉エントロピーで訓練されたニューラルネットワークは、近似的な影響表現を学習するのに適していることを示す。
論文 参考訳(メタデータ) (2020-11-03T15:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。