Fugu-MT 論文翻訳(概要): Feature Encodings for Gradient Boosting with Automunge

論文の概要: Feature Encodings for Gradient Boosting with Automunge

arxiv url: http://arxiv.org/abs/2209.12309v1
Date: Sun, 25 Sep 2022 19:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 17:00:10.868292
Title: Feature Encodings for Gradient Boosting with Automunge
Title（参考訳）: Automungeによるグラディエントブースティングのための特徴符号化
Authors: Nicholas J. Teague
Abstract要約: データフレーム前処理のためのAutomungeライブラリは、カテゴリ機能のバイナライゼーションと数値のzスコア正規化をデフォルトで提供する。平均して選択したデフォルトは、チューニング期間とモデルパフォーマンスの観点から、トップパフォーマーでした。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Selecting a default feature encoding strategy for gradient boosted learning may consider metrics of training duration and achieved predictive performance associated with the feature representations. The Automunge library for dataframe preprocessing offers a default of binarization for categoric features and z-score normalization for numeric. The presented study sought to validate those defaults by way of benchmarking on a series of diverse data sets by encoding variations with tuned gradient boosted learning. We found that on average our chosen defaults were top performers both from a tuning duration and a model performance standpoint. Another key finding was that one hot encoding did not perform in a manner consistent with suitability to serve as a categoric default in comparison to categoric binarization. We present here these and further benchmarks.
Abstract（参考訳）: 勾配強化学習のためのデフォルトの特徴符号化戦略を選択することは、トレーニング期間のメトリクスを考慮し、特徴表現に関連する予測性能を達成できる。データフレームプリプロセッシング用のautomungeライブラリは、カテゴリ特徴のbinarizationと数値のz-score正規化のデフォルトを提供する。提案研究では,一連の多様なデータセットのベンチマークを用いて,調整された勾配向上学習のバリエーションを符号化することにより,それらのデフォルトを検証することを試みた。平均すると、私たちの選択したデフォルトは、チューニング期間とモデルパフォーマンスの両面で、トップパフォーマーでした。もう一つの重要な発見は、1つのホットエンコーディングがカテゴリの双対化と比較してカテゴリのデフォルトとして機能するのに適した方法で動作しなかったことである。ここではこれらのベンチマークとさらなるベンチマークを示す。

関連論文リスト

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning [51.133569963553576]
ssTokenは自己変調されたセマンティックなToken Selectionアプローチである。自己変調の選択とセマンティック・アウェアの選択の両方が、フルデータの微調整よりも優れていることを示す。
論文参考訳（メタデータ） (2025-10-21T03:21:04Z)
Improving Model Classification by Optimizing the Training Dataset [3.987352341101438]
Coresetsはデータ削減に対する原則的なアプローチを提供し、大規模なデータセットでの効率的な学習を可能にする。下流の分類品質を向上させるために,コアセット生成プロセスを調整するための体系的なフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-22T16:10:11Z)
Intelligently Augmented Contrastive Tensor Factorization: Empowering Multi-dimensional Time Series Classification in Low-Data Environments [4.77513566805416]
我々は、多機能でデータ効率のよいフレームワークITA-CTF(Intelligently Augmented Contrastive Factorization)を提案する。 ITA-CTFモジュールは多次元時系列から効率的な表現を学習する。類似性学習とクラス認識に対する新しい対照的な損失最適化が組み込まれている。標準およびいくつかのDLベンチマークと比較して、注目すべきパフォーマンス改善は18.7%に達した。
論文参考訳（メタデータ） (2025-05-03T11:28:13Z)
A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文参考訳（メタデータ） (2023-11-10T05:26:10Z)
ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文参考訳（メタデータ） (2023-06-04T02:55:25Z)
Benchmarking state-of-the-art gradient boosting algorithms for classification [0.0]
この研究は、分類の文脈における勾配増強の利用について考察する。オリジナルのGBMアルゴリズムや選択された最先端の勾配向上フレームワークを含む4つの一般的な実装を比較した。有効性、信頼性、使いやすさの適切なバランスを示す勾配促進変種を示す試みが行われた。
論文参考訳（メタデータ） (2023-05-26T17:06:15Z)
Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文参考訳（メタデータ） (2021-12-14T08:25:24Z)
Regularized target encoding outperforms traditional methods in supervised machine learning with high cardinality features [1.1709030738577393]
分類変数の数値表現を導出する手法を検討する。異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
論文参考訳（メタデータ） (2021-04-01T17:21:42Z)
Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文参考訳（メタデータ） (2021-04-01T13:55:21Z)
Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-05-21T06:11:33Z)
Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文参考訳（メタデータ） (2020-04-12T03:53:53Z)
Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2020-03-14T22:29:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。