論文の概要: Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization
- arxiv url: http://arxiv.org/abs/2511.16090v1
- Date: Thu, 20 Nov 2025 06:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.501372
- Title: Mitigating Estimation Bias with Representation Learning in TD Error-Driven Regularization
- Title(参考訳): TD誤り駆動正規化における表現学習による推定バイアスの緩和
- Authors: Haohui Chen, Zhiyong Chen, Aoxiang Liu, Wentuo Fang,
- Abstract要約: この研究は、柔軟なバイアス制御とより強力な表現学習を実現するための拡張手法を導入する。
両アクターによる過大評価と楽観的な探索を緩和するために、悲観的推定のバランスをとる3つの凸組合せ戦略(対称と非対称)を提案する。
パフォーマンスをさらに向上するため、アクターと批評家ネットワークに拡張状態とアクション表現を統合する。
- 参考スコア(独自算出の注目度): 4.784045060345404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deterministic policy gradient algorithms for continuous control suffer from value estimation biases that degrade performance. While double critics reduce such biases, the exploration potential of double actors remains underexplored. Building on temporal-difference error-driven regularization (TDDR), a double actor-critic framework, this work introduces enhanced methods to achieve flexible bias control and stronger representation learning. We propose three convex combination strategies, symmetric and asymmetric, that balance pessimistic estimates to mitigate overestimation and optimistic exploration via double actors to alleviate underestimation. A single hyperparameter governs this mechanism, enabling tunable control across the bias spectrum. To further improve performance, we integrate augmented state and action representations into the actor and critic networks. Extensive experiments show that our approach consistently outperforms benchmarks, demonstrating the value of tunable bias and revealing that both overestimation and underestimation can be exploited differently depending on the environment.
- Abstract(参考訳): 連続制御のための決定論的ポリシー勾配アルゴリズムは、性能を低下させる値推定バイアスに悩まされる。
二重批評家はそのような偏見を減らしているが、二重俳優の探究の可能性はまだ未熟である。
この研究は、時間差エラー駆動型正規化(TDDR)というダブルアクター・クリティカルなフレームワークに基づいており、柔軟なバイアス制御とより強力な表現学習を実現するための拡張手法を導入している。
我々は、過大評価を緩和し、過小評価を緩和するために二重アクターによる楽観的な探索を緩和するために、悲観的な推定を均衡させる3つの凸組合せ戦略(対称と非対称)を提案する。
単一のハイパーパラメータがこのメカニズムを制御し、バイアススペクトルにわたって調整可能な制御を可能にする。
パフォーマンスをさらに向上するため、アクターと批評家ネットワークに拡張状態とアクション表現を統合する。
大規模な実験により、我々のアプローチはベンチマークを一貫して上回り、調整可能なバイアスの価値を示し、過大評価と過小評価の両方を環境によって異なる方法で活用できることが判明した。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。
我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。
本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文 参考訳(メタデータ) (2025-09-26T13:53:25Z) - Counterfactual Reward Model Training for Bias Mitigation in Multimodal Reinforcement Learning [0.5204229323525671]
本稿では,マルチモーダル表現学習による因果推論を導入し,非教師付きバイアス耐性報酬信号を提供する。
我々は, フレーミングバイアス, クラス不均衡, 分散ドリフトを示すマルチモーダルフェイク対真のニュースデータセット上で, フレームワークの評価を行った。
その結果、偽ニュースの検出において89.12%の精度を達成し、ベースライン報酬モデルを上回った。
論文 参考訳(メタデータ) (2025-08-27T04:54:33Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Spectral Representation for Causal Estimation with Hidden Confounders [33.148766692274215]
隠れた共同創設者が存在する場合の因果効果推定の問題に対処する。
本手法では,条件付き期待演算子の特異値分解とサドル点最適化問題を用いる。
論文 参考訳(メタデータ) (2024-07-15T05:39:56Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Ensembling over Classifiers: a Bias-Variance Perspective [13.006468721874372]
Pfau (2013) による偏差分解の拡張の上に構築し, 分類器のアンサンブルの挙動に関する重要な知見を得る。
条件付き推定は必然的に既約誤差を生じさせることを示す。
経験的に、標準的なアンサンブルはバイアスを減少させ、この予期せぬ減少のために、分類器のアンサンブルがうまく機能するかもしれないという仮説を立てる。
論文 参考訳(メタデータ) (2022-06-21T17:46:35Z) - Efficient Continuous Control with Double Actors and Regularized Critics [7.072664211491016]
我々は,長期にわたって無視されてきた二重アクターの可能性を探り,連続的な設定におけるより良い値関数推定法を提案する。
我々は、DDPGの過大評価バイアスとTD3の過小評価バイアスに対処するため、シングル・批評家とダブル・批評家に二重アクターを構築した。
二重批評家による価値推定の不確実性を軽減するため、二重アクターアーキテクチャの下での批判ネットワークの正規化を提案する。
論文 参考訳(メタデータ) (2021-06-06T07:04:48Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。