Fugu-MT 論文翻訳(概要): Sequential Counterfactual Decision-Making Under Confounded Reward

関連論文リスト

Bandits in Flux: Adversarial Constraints in Dynamic Environments [2.368995563245609]
最適勾配推定器と効果的な制約処理を組み込むことで,オンラインミラー降下を拡張できる原始双対アルゴリズムを提案する。提案アルゴリズムは, 後悔と制約違反の両面から, 最先端の性能を実現する。
論文参考訳（メタデータ） (2026-01-27T18:26:07Z)
Transfer Learning for Classification under Decision Rule Drift with Application to Optimal Individualized Treatment Rule Estimation [50.34670342434884]
本研究では,ベイズ決定規則による後方ドリフトのモデル化手法を提案する。穏やかな規則性条件の下では、推定器の整合性を確立し、リスク境界を導出する。本稿では,最適な個別化処理ルールの推定に適応させることにより,本手法の幅広い適用性について述べる。
論文参考訳（メタデータ） (2025-08-28T16:03:06Z)
Policy gradient methods for ordinal policies [0.7366405857677227]
強化学習において、ソフトマックスパラメトリゼーション(英: softmax parametrization)は、離散的な作用空間に対するポリシーの標準的なアプローチである。強化学習環境に適応した順序回帰モデルに基づく新しい政策パラメトリゼーションを提案する。
論文参考訳（メタデータ） (2025-06-23T13:19:36Z)
AI-Facilitated Collective Judgements [1.3812010983144802]
本稿は、集合的嗜好の共通基盤を見つけることを目的とした、長年かつ新しく提案されてきた計算フレームワークの背景にある設計上の選択を解き放つ。我々は、集団意志、センスメイキング、コンセンサス検索の合理的な表現を促進するための発見ツールとして、AIに精通した集団判断を探求する。同時に、我々は、拘束決定の有効化、段階的な権限剥奪の促進、政治的成果の合理化など、危険な悪用に注意する。
論文参考訳（メタデータ） (2025-03-06T00:06:22Z)
Uncertainty Quantification and Causal Considerations for Off-Policy Decision Making [4.514386953429771]
オフ政治評価(OPE)は、異なる政策の下で収集されたデータを用いて、新しい政策のパフォーマンスを評価する。既存のOPE手法は、統計的不確実性や因果的考慮から生じるいくつかの制限に悩まされている。結果の限界分布に着目して分散を低減する新しい OPE 手法である Marginal Ratio (MR) 推定器を導入する。次に,OPEにおける不確実性定量化の原理的アプローチである Conformal Off-Policy Prediction (COPP) を提案する。最後に, 政策外の意思決定における因果不確定性に対処する。
論文参考訳（メタデータ） (2025-02-09T20:05:19Z)
Tell Me What You Don't Know: Enhancing Refusal Capabilities of Role-Playing Agents via Representation Space Analysis and Editing [54.098203568194606]
我々は,文脈知識の競合要求,パラメトリック知識の競合要求,非競合要求を含む評価ベンチマークを開発する。ほとんどのRPAは、異なる競合要求に対して、大幅なパフォーマンスギャップを動作します。本稿では、競合する要求を拒否領域に都合よくシフトさせる軽量な表現編集手法を提案する。
論文参考訳（メタデータ） (2024-09-25T13:18:12Z)
Causal Influence in Federated Edge Inference [34.487472866247586]
本稿では、未ラベルのストリーミングデータを用いて、接続性のある異種エージェントが推論を行う環境について考察する。不確実性を克服するために、エージェントは、融合センターを通じてローカルな推論を交換することで互いに協力する。エージェントの関与パターンや核融合センターの方針を反映した様々なシナリオを考察した。
論文参考訳（メタデータ） (2024-05-02T13:06:50Z)
Predictive Performance Comparison of Decision Policies Under Confounding [32.21041697921289]
そこで本稿では, 意思決定ポリシーの予測性能を, 様々な現代的な識別手法で比較する手法を提案する。我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。
論文参考訳（メタデータ） (2024-04-01T01:27:07Z)
Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文参考訳（メタデータ） (2024-02-15T19:18:47Z)
Markov Decision Processes under External Temporal Processes [8.679020335206754]
本研究では,外部時間過程の影響下でマルコフ決定過程について検討する。本稿では,この問題に対処するためのポリシー反復アルゴリズムの提案と理論的解析を行う。トラクタブルポリシと値関数を考慮した近似誤差によって決定される状態空間の領域におけるポリシー改善の保証を提供する。
論文参考訳（メタデータ） (2023-05-25T13:38:53Z)
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文参考訳（メタデータ） (2023-03-02T08:57:35Z)
When to intervene? Prescriptive Process Monitoring Under Uncertainty and Resource Constraints [0.7487718119544158]
規範的なプロセス監視アプローチは、過去のデータを活用して実行時の介入を規定する。この分野での以前の提案は、与えられたケースの現在の状態のみを考慮した介入ポリシーに依存している。本稿では,予測スコア,予測の不確実性,介入の因果効果に基づいて進行中の事例をフィルタリング・ランク付けし,利得関数を最大化するために介入をトリガーする規範的プロセス監視手法を導入することにより,これらのギャップに対処する。
論文参考訳（メタデータ） (2022-06-15T18:18:33Z)
Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。摂動法による政策依存推定のための非バイアス推定器を構築する。因果介入を最適化するための一般的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2022-02-25T20:25:37Z)
Mitigation of Adversarial Policy Imitation via Constrained Randomization of Policy (CRoP) [10.736626320566707]
本稿では、不正な複製攻撃に対する緩和手法として、制約付きポリシーのランダム化(CRoP)を提案する。 CRoPのパラメトリック解析を行い、CRoPの最適性に対処し、敵の予算と損失予測に理論的境界を確立する。
論文参考訳（メタデータ） (2021-09-29T19:29:10Z)
Algorithmic Recourse in Partially and Fully Confounded Settings Through Bounding Counterfactual Effects [0.6299766708197883]
アルゴリズムリコースは、自動意思決定システムからより好ましい結果を得るために、個人に実行可能なレコメンデーションを提供することを目的としている。既存の手法では,データから学習した因果モデルを用いて,隠れたコンバウンディングや付加雑音などの仮定をモデル化する手法が提案されている。本稿では、これらの仮定を緩和し、観測不能な共役および任意の構造方程式を可能にする離散確率変数に対する別のアプローチを提案する。
論文参考訳（メタデータ） (2021-06-22T15:07:49Z)
Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文参考訳（メタデータ） (2020-07-02T14:24:17Z)
Inverse Active Sensing: Modeling and Understanding Timely Decision-Making [111.07204912245841]
我々は,内因性,文脈依存型時間圧下でのエビデンスに基づく意思決定の一般的な設定のための枠組みを開発する。意思決定戦略において、サプライズ、サスペンス、最適性の直感的な概念をモデル化する方法を実証する。
論文参考訳（メタデータ） (2020-06-25T02:30:45Z)
Options of Interest: Temporal Abstraction with Interest Functions [58.30081828754683]
一般関数近似に適した開始集合の一般化を、オプションに関連付けられた興味関数を定義することによって提供する。我々は、関心関数に対する勾配に基づく学習アルゴリズムを導出し、新たな関心選択批判的アーキテクチャを創出する。
論文参考訳（メタデータ） (2020-01-01T21:24:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: Sequential Counterfactual Decision-Making Under Confounded Reward

関連論文リスト