論文の概要: Tape: A Cellular Automata Benchmark for Evaluating Rule-Shift Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2601.04695v1
- Date: Thu, 08 Jan 2026 08:05:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.096235
- Title: Tape: A Cellular Automata Benchmark for Evaluating Rule-Shift Generalization in Reinforcement Learning
- Title(参考訳): テープ:強化学習におけるルールシフト一般化評価のためのセルオートマタベンチマーク
- Authors: Enze Pan,
- Abstract要約: 本稿では,遅延ルールシフト下でのOOD障害の分離を目的とした強化学習ベンチマークであるTapeを提案する。
我々は、(i)標準化されたOODプロトコル、(ii)統計報告要件、(iii)エントロピー還元と条件付き相互情報を結ぶ情報理論のアイデンティティを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Tape, a controlled reinforcement-learning benchmark designed to isolate out-of-distribution (OOD) failure under latent rule shifts.Tape is derived from one-dimensional cellular automata, enabling precise train/test splits where observation and action spaces are held fixed while transition rules change. Using a reproducible evaluation pipeline, we compare model-free baselines, model-based planning with learned world models, and task-inference (meta-RL) methods. A consistent pattern emerges: methods that are strong in-distribution (ID) can collapse under heldout-rule OOD, and high-variance OOD evaluation can make rankings unstable unless experiments are sufficiently replicated.We provide (i) standardized OOD protocols, (ii) statistical reporting requirements (seeds, confidence intervals, and hypothesis tests), and (iii) information-theoretic identities connecting entropy reduction to conditional mutual information and expected posterior KL divergence, clarifying what "uncertainty reduction" objectives can and cannot guarantee under rule shifts.
- Abstract(参考訳): 遅延ルールシフト下でのOOD障害の分離を目的とした強化学習ベンチマークであるTapeについて述べる。Tapは1次元セルオートマトンから派生し,遷移規則が変化しながら観察空間と動作空間が固定された正確な列車/テスト分割を可能にする。
再現可能な評価パイプラインを用いて、モデルフリーのベースライン、学習された世界モデルとのモデルベースプランニング、タスク推論(meta-RL)手法を比較する。
一貫したパターンが出現する:強い分配性(ID)を持つ手法はホールドアウトルールOODで崩壊しうるし、高分散OOD評価は実験が十分に再現されない限りランキングを不安定にすることができる。
(i)OODプロトコルの標準化
二 統計報告要件(種子、信頼区間、仮説検査)及び
三 エントロピー低減と条件付き相互情報と予測後KL分岐とを結び、ルールシフトの下で「不確実性低減」の目的が何が可能で、保証できないかを明らかにすること。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [22.789611187514975]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。
既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文 参考訳(メタデータ) (2025-05-07T17:53:47Z) - Adaptive Scoring and Thresholding with Human Feedback for Robust Out-of-Distribution Detection [6.192472816262214]
機械学習(ML)モデルは、ID(In-distriion)データに基づいてトレーニングされるが、デプロイ中にOOD(out-of-distriion)入力に遭遇することが多い。
最近の研究は、OODの不確実性を定量化するためのスコアリング関数の設計に重点を置いている。
我々は,実世界のOOD入力に基づいて,フライ時のスコアリング機能としきい値の両方を即時更新するヒューマン・イン・ザ・ループ・フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-05T00:25:14Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Integrative conformal p-values for powerful out-of-distribution testing
with labeled outliers [1.6371837018687636]
本稿では,参照集合と同じ分布から新しい観測結果がサンプリングされたかどうかを検証するための新しいコンフォメーション手法を開発した。
提案手法は, 既知分布データからの依存側情報に基づいて, 標準のp値を再重み付けすることができる。
このソリューションは、サンプル分割または新しいトランスダクティブクロスバリデーション+スキームによって実装することができる。
論文 参考訳(メタデータ) (2022-08-23T17:52:20Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。