論文の概要: Feature Augmentations for High-Dimensional Learning
- arxiv url: http://arxiv.org/abs/2509.00232v1
- Date: Fri, 29 Aug 2025 20:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.138464
- Title: Feature Augmentations for High-Dimensional Learning
- Title(参考訳): 高次元学習のための特徴拡張
- Authors: Xiaonan Zhu, Bingyan Wang, Jianqing Fan,
- Abstract要約: 設計行列とその変換から抽出した因子を特徴量として拡張することで教師付き学習アルゴリズムの性能を向上させる手法を提案する。
これは、入力変数間の相関を著しく弱め、学習アルゴリズムの解釈可能性や数値安定性を向上させる因子と慣用性残差を用いることで実現される。
- 参考スコア(独自算出の注目度): 9.20063546548507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional measurements are often correlated which motivates their approximation by factor models. This holds also true when features are engineered via low-dimensional interactions or kernel tricks. This often results in over parametrization and requires a fast dimensionality reduction. We propose a simple technique to enhance the performance of supervised learning algorithms by augmenting features with factors extracted from design matrices and their transformations. This is implemented by using the factors and idiosyncratic residuals which significantly weaken the correlations between input variables and hence increase the interpretability of learning algorithms and numerical stability. Extensive experiments on various algorithms and real-world data in diverse fields are carried out, among which we put special emphasis on the stock return prediction problem with Chinese financial news data due to the increasing interest in NLP problems in financial studies. We verify the capability of the proposed feature augmentation approach to boost overall prediction performance with the same algorithm. The approach bridges a gap in research that has been overlooked in previous studies, which focus either on collecting additional data or constructing more powerful algorithms, whereas our method lies in between these two directions using a simple PCA augmentation.
- Abstract(参考訳): 高次元の測定はしばしば相関し、因子モデルによる近似を動機付けている。
これは、低次元のインタラクションやカーネルのトリックによって機能を設計する場合にも当てはまる。
これはしばしば過度なパラメトリゼーションをもたらし、高速な次元減少を必要とする。
設計行列とその変換から抽出した因子を特徴量として拡張することにより,教師付き学習アルゴリズムの性能を向上させるための簡単な手法を提案する。
これは、入力変数間の相関を著しく弱め、学習アルゴリズムの解釈可能性や数値安定性を向上させる因子と慣用性残差を用いることで実現される。
様々な分野における多種多様なアルゴリズムと実世界のデータに関する大規模な実験を行い、金融研究におけるNLP問題への関心の高まりにより、中国金融ニュースデータにおけるストックリターン予測問題に特に重点を置いている。
提案手法の有効性を検証するため,提案手法の有効性を検証した。
この手法は、従来の研究で見過ごされてきた研究のギャップを埋めるものであり、追加データ収集やより強力なアルゴリズムの構築に重点を置いている。
関連論文リスト
- Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。
本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。
本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文 参考訳(メタデータ) (2025-07-31T05:34:27Z) - Newfluence: Boosting Model interpretability and Understanding in High Dimensions [17.73837631710377]
我々は、類似した計算効率を維持しつつ、精度を大幅に向上させる、Newfluenceと呼ばれる別の近似を導入する。
Newfluenceは、複雑なAIモデルを解釈する多くの既存の方法よりも、より正確な洞察を提供すると期待されている。
論文 参考訳(メタデータ) (2025-07-16T04:22:16Z) - Fairness-Driven LLM-based Causal Discovery with Active Learning and Dynamic Scoring [1.5498930424110338]
因果発見(英: Causal discovery, CD)は、様々な分野において観測される現象の根底にある因果関係を明らかにすることで、多くの科学分野において重要な役割を担っている。
CDアルゴリズムの大幅な進歩にもかかわらず、その応用は大規模データの高い計算要求と複雑さのために困難に直面している。
本稿では,CDにLarge Language Models(LLM)を活用するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-21T22:58:26Z) - Enhancing Feature Selection and Interpretability in AI Regression Tasks Through Feature Attribution [38.53065398127086]
本研究では、回帰問題に対する入力データの非形式的特徴をフィルタリングする特徴属性法の可能性について検討する。
我々は、初期データ空間から最適な変数セットを選択するために、統合グラディエントとk平均クラスタリングを組み合わせた機能選択パイプラインを導入する。
提案手法の有効性を検証するため, ターボ機械の開発過程における羽根振動解析を実世界の産業問題に適用した。
論文 参考訳(メタデータ) (2024-09-25T09:50:51Z) - Semantic-Preserving Feature Partitioning for Multi-View Ensemble
Learning [11.415864885658435]
本稿では,情報理論に基づく新しい手法であるセマンティック・保存特徴分割(SPFP)アルゴリズムを紹介する。
SPFPアルゴリズムは、データセットを複数のセマンティックな一貫したビューに効果的に分割し、マルチビューアンサンブル学習プロセスを強化する。
モデル精度を維持しつつ、高い一般化性能が達成可能なシナリオにおける不確実性対策を大幅に改善する。
論文 参考訳(メタデータ) (2024-01-11T20:44:45Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Statistically Guided Divide-and-Conquer for Sparse Factorization of
Large Matrix [2.345015036605934]
統計的問題をスパース係数回帰として定式化し、分割コンカレントアプローチでそれに取り組む。
第1段階分割では、タスクを1組の同時並列推定(CURE)問題に単純化するための2つの潜時並列アプローチについて検討する。
第2段階分割では、CUREの全解を効率的に追跡するために、一連の単純な増分経路からなる段階学習手法を革新する。
論文 参考訳(メタデータ) (2020-03-17T19:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。