論文の概要: A Multi-Component Reward Function with Policy Gradient for Automated Feature Selection with Dynamic Regularization and Bias Mitigation
- arxiv url: http://arxiv.org/abs/2510.09705v1
- Date: Thu, 09 Oct 2025 22:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.573053
- Title: A Multi-Component Reward Function with Policy Gradient for Automated Feature Selection with Dynamic Regularization and Bias Mitigation
- Title(参考訳): 動的正規化とバイアス緩和を考慮した自動特徴選択のためのポリシー勾配を持つ多成分リワード関数
- Authors: Sudip Khadka, L. S. Paudel,
- Abstract要約: 隠れた依存関係がモデル予測に影響を与えると、静的な機能排除戦略はバイアスを防ぐことができない。
バイアス緩和と自動特徴選択を1つの学習プロセスに統合する強化学習フレームワークを開発した。
予測者が相関し、バイアスが必然的に再帰できる環境において、フレキシブルで一般化可能な機能選択方法を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Static feature exclusion strategies often fail to prevent bias when hidden dependencies influence the model predictions. To address this issue, we explore a reinforcement learning (RL) framework that integrates bias mitigation and automated feature selection within a single learning process. Unlike traditional heuristic-driven filter or wrapper approaches, our RL agent adaptively selects features using a reward signal that explicitly integrates predictive performance with fairness considerations. This dynamic formulation allows the model to balance generalization, accuracy, and equity throughout the training process, rather than rely exclusively on pre-processing adjustments or post hoc correction mechanisms. In this paper, we describe the construction of a multi-component reward function, the specification of the agents action space over feature subsets, and the integration of this system with ensemble learning. We aim to provide a flexible and generalizable way to select features in environments where predictors are correlated and biases can inadvertently re-emerge.
- Abstract(参考訳): 静的な特徴排除戦略は、隠れた依存関係がモデル予測に影響を与える場合、しばしばバイアスを防止できない。
この問題に対処するために、バイアス緩和と自動特徴選択を単一の学習プロセスに統合する強化学習(RL)フレームワークについて検討する。
従来のヒューリスティック・フィルタやラッパー・アプローチとは異なり、我々のRLエージェントは、フェアネスを考慮した予測性能を明示的に統合する報酬信号を用いて特徴を適応的に選択する。
この動的定式化により、モデルは事前処理調整やポストホック補正機構にのみ依存するのではなく、トレーニングプロセス全体を通して一般化、正確性、および株式のバランスをとることができる。
本稿では,多成分報酬関数の構築,特徴部分集合上のエージェントアクション空間の仕様,およびアンサンブル学習との統合について述べる。
予測者が相関し、バイアスが必然的に再帰できる環境において、フレキシブルで一般化可能な機能選択方法を提供する。
関連論文リスト
- Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - Recursive Reward Aggregation [60.51668865089082]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - Q-function Decomposition with Intervention Semantics with Factored Action Spaces [51.01244229483353]
元の作用空間の低次元射影部分空間上で定義されるQ-函数を考察し、分解されたQ-函数の不偏性について考察する。
これにより、標準モデルフリー強化学習アルゴリズムにおいて、予測Q関数を用いてQ関数を近似する動作分解強化学習と呼ばれる一般的なスキームが導かれる。
論文 参考訳(メタデータ) (2025-04-30T05:26:51Z) - Invariant Federated Learning for Edge Intelligence: Mitigating Heterogeneity and Asynchrony via Exit Strategy and Invariant Penalty [10.54196990763149]
本稿では,資源制約付きエッジインテリジェンスのための不変なフェデレーション学習システムを提案する。
退避戦略と不変ペナルティを通じて異質性や非同期性の影響を軽減することができる。
その結果,本システムは分散処理性能を向上し,Out-Of-Distributionの一般化において最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2025-03-08T10:47:27Z) - A Hybrid Framework for Statistical Feature Selection and Image-Based Noise-Defect Detection [55.2480439325792]
本稿では,統計的特徴選択と分類技術を統合し,欠陥検出精度を向上させるハイブリッドフレームワークを提案する。
工業画像から抽出した55個の特徴を統計的手法を用いて解析した。
これらの手法をフレキシブルな機械学習アプリケーションに統合することにより、検出精度を改善し、偽陽性や誤分類を減らす。
論文 参考訳(メタデータ) (2024-12-11T22:12:21Z) - SDPERL: A Framework for Software Defect Prediction Using Ensemble Feature Extraction and Reinforcement Learning [0.0]
本稿では,ソフトウェア欠陥予測のための革新的なフレームワークを提案する。
アンサンブル特徴抽出と強化学習(RL)に基づく特徴選択を組み合わせる。
この作業は、ファイルレベルの粒度でこの問題に対処する最近の取り組みの1つだ、と我々は主張する。
論文 参考訳(メタデータ) (2024-12-10T21:16:05Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Automatic Debiased Machine Learning for Dynamic Treatment Effects and
General Nested Functionals [23.31865419578237]
我々は、自動脱バイアス機械学習の考え方を動的治療体制に拡張し、より一般的にネストされた機能に拡張する。
離散的な処理を施した動的処理系に対する多重ロバストな式は、ネスト平均回帰のリース表現器のキャラクタリゼーションにより再定式化可能であることを示す。
論文 参考訳(メタデータ) (2022-03-25T19:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。