論文の概要: Discovering What You Can Control: Interventional Boundary Discovery for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.18257v1
- Date: Wed, 18 Mar 2026 20:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.838292
- Title: Discovering What You Can Control: Interventional Boundary Discovery for Reinforcement Learning
- Title(参考訳): 制御できることを発見する:強化学習のためのインターベンショナル境界発見
- Authors: Jiaxin Liu,
- Abstract要約: インターベンショナル・バウンダリー・ディスカバリー(Interventional Boundary Discovery IBD)は、パールの操作をエージェント自身の行動に適用する。
観測的特徴選択は,真の因果次元を排除しつつ,共起型散逸器を積極的に選択できることがわかった。
IBDは、テスト対象のすべてのイントラクタレベルにおけるオラクルのパフォーマンスを密に追跡し、SACとTD3間で転送される。
- 参考スコア(独自算出の注目度): 10.42817342886248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting relevant state dimensions in the presence of confounded distractors is a causal identification problem: observational statistics alone cannot reliably distinguish dimensions that correlate with actions from those that actions cause. We formalize this as discovering the agent's Causal Sphere of Influence and propose Interventional Boundary Discovery IBD, which applies Pearl's do-operator to the agent's own actions and uses two-sample testing to produce an interpretable binary mask over observation dimensions. IBD requires no learned models and composes with any downstream RL algorithm as a preprocessing step. Across 12 continuous control settings with up to 100 distractor dimensions, we find that: (1) observational feature selection can actively select confounded distractors while discarding true causal dimensions; (2) full-state RL degrades sharply once distractors outnumber relevant features by roughly 3:1 in our benchmarks; and (3)IBD closely tracks oracle performance across all distractor levels tested, with gains transferring across SAC and TD3.
- Abstract(参考訳): コンソリケータの存在下で関連する状態次元を選択することは因果識別の問題であり、観測統計だけでは行動の原因となる行動と相関する次元を確実に区別することはできない。
我々は、エージェントの因果圏(Causal Sphere of Influence)を発見し、エージェント自身の行動にパールの操作を適用したインターベンショナル境界発見(Interventional boundary Discovery IBD)を提案する。
IBDは学習したモデルを必要とせず、前処理ステップとして下流RLアルゴリズムで構成する。
1) 観測的特徴選択は, 真の因果次元を捨てたまま, コンストラクタを積極的に選択でき, 2) フルステートRLは, 関連する特徴を約3:1の精度で分解し, (3)IBD は, 試験された全てのイントラクタレベルのオラクル性能を密に追跡し, SAC と TD3 間で転送する。
関連論文リスト
- Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM [0.0]
以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。
Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。
我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
論文 参考訳(メタデータ) (2026-02-22T12:42:38Z) - To Search or Not to Search: Aligning the Decision Boundary of Deep Search Agents via Causal Intervention [61.82680155643223]
我々は,不整合決定境界の根本原因を同定し,蓄積した情報が回答するのに十分であるかどうかをしきい値に判定する。
これにより、過剰探索(十分な知識にもかかわらず冗長探索)と過度探索(早期終了)が誤った答えをもたらす。
まず,境界誤差を識別する因果的介入に基づく診断手法を提案する。
第2に,Deep Search Agent(DAS)のための決定境界アライメントを開発する。
我々のDAS法はこれらの境界を効果的に校正し、オーバーサーチとアンダーサーチの両方を緩和し、精度と効率を大幅に向上させる。
論文 参考訳(メタデータ) (2026-02-03T09:29:06Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - DeCaFlow: A deconfounding causal generative model [48.86777554649186]
本稿では,分解因果生成モデルであるDeCaFlowを紹介する。
DeCaFlowの単一インスタンスがdo-calculusで識別可能なすべての因果クエリに対して正しい推定値を提供することを示す。
多様な設定に関する実証的な結果は、DeCaFlowが既存のアプローチよりも優れており、任意の因果グラフに適用可能であることを示している。
論文 参考訳(メタデータ) (2025-03-19T11:14:16Z) - Learning Action-based Representations Using Invariance [18.1941237781348]
我々は,制御に関係のある遠隔状態の特徴を割引する多段階制御可能性指標を学習するアクションビシミュレーション符号化を導入する。
我々は,報酬のない一様ランダムなデータに基づく行動ビシミュレーション事前学習が,複数の環境におけるサンプル効率を向上させることを実証した。
論文 参考訳(メタデータ) (2024-03-25T02:17:54Z) - What's in the Flow? Exploiting Temporal Motion Cues for Unsupervised Generic Event Boundary Detection [1.3695134621603882]
ジェネリックイベント境界検出(GEBD)タスクは、ビデオを意味のあるイベントに分割する、ジェネリックで分類のない境界を認識することを目的としている。
現在の手法は通常、大量のデータに基づいてトレーニングされたニューラルモデルを含み、かなりの計算能力とストレージスペースを必要とする。
GEBDのための非パラメトリック非教師技術であるFlowGEBDを提案する。
論文 参考訳(メタデータ) (2024-02-15T14:49:15Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement
Learning [2.984934409689467]
因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習する現象である。
本稿では,エージェントの推論における因果的混乱を検出するアルゴリズムであるReCCoVERを提案する。
論文 参考訳(メタデータ) (2022-03-21T13:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。