論文の概要: DiscoVars: A New Data Analysis Perspective -- Application in Variable
Selection for Clustering
- arxiv url: http://arxiv.org/abs/2304.03983v1
- Date: Sat, 8 Apr 2023 10:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:35:34.543379
- Title: DiscoVars: A New Data Analysis Perspective -- Application in Variable
Selection for Clustering
- Title(参考訳): DiscoVars: 新しいデータ分析の視点 -- クラスタリングにおける可変選択への応用
- Authors: Ayhan Demiriz
- Abstract要約: 基礎となる学習課題によらず,変数の重要度を決定するために,新しいデータ分析視点を提案する。
本稿では,データから重要な変数を選択するための新しい手法を提案する。
ユーザフレンドリーなインターフェース開発環境であるShinyアプリとして,当社のツールを紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a new data analysis perspective to determine variable importance
regardless of the underlying learning task. Traditionally, variable selection
is considered an important step in supervised learning for both classification
and regression problems. The variable selection also becomes critical when
costs associated with the data collection and storage are considerably high for
cases like remote sensing. Therefore, we propose a new methodology to select
important variables from the data by first creating dependency networks among
all variables and then ranking them (i.e. nodes) by graph centrality measures.
Selecting Top-$n$ variables according to preferred centrality measure will
yield a strong candidate subset of variables for further learning tasks e.g.
clustering. We present our tool as a Shiny app which is a user-friendly
interface development environment. We also extend the user interface for two
well-known unsupervised variable selection methods from literature for
comparison reasons.
- Abstract(参考訳): 基礎となる学習課題に関係なく,変数の重要性を判断するための新しいデータ分析視点を提案する。
伝統的に、変数選択は分類問題と回帰問題の両方において教師あり学習の重要なステップと考えられている。
データ収集とストレージに関連するコストがリモートセンシングのようなケースでかなり高い場合には、変数の選択も重要になります。
そこで本研究では,まずすべての変数間の依存ネットワークを作成し,まずグラフ集中度尺度でそれらのノード(ノード)をランク付けすることで,データから重要な変数を選択する手法を提案する。
優先集中度指標に従ってトップ$n$変数を選択すると、クラスタリングのようなさらなる学習タスクのために、変数の強力な候補サブセットが得られる。
ユーザフレンドリーなインターフェース開発環境であるShinyアプリとして,当社のツールを紹介します。
また、文献からよく知られた2つの教師なし変数選択法に対するユーザインタフェースを比較のために拡張する。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Contextual Feature Selection with Conditional Stochastic Gates [9.784482648233048]
条件ゲート(c-STG)は、文脈変数に基づいてパラメータが予測される条件変数を用いて、特徴の重要性をモデル化する。
我々は,c-STGは,予測精度と解釈可能性を高めつつ,特徴選択能力の向上につながることを示した。
論文 参考訳(メタデータ) (2023-12-21T19:12:59Z) - A data-science pipeline to enable the Interpretability of Many-Objective
Feature Selection [0.1474723404975345]
多目的特徴選択(MOFS)アプローチは、4つ以上の目的を用いて、教師付き学習タスクにおける機能のサブセットの関連性を決定する。
本稿では,MOFS結果の解釈と比較においてデータサイエンティストを支援する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T17:44:22Z) - Statistically Valid Variable Importance Assessment through Conditional
Permutations [19.095605415846187]
Conditional Permutation Importanceは、変数の重要度評価に対する新しいアプローチである。
我々は、$textitCPI$が、正確な型Iエラー制御を提供することで、標準置換の重要性の限界を克服していることを示す。
この結果から,$textitCPI$は置換型メソッドのドロップイン置換として簡単に利用できることが示唆された。
論文 参考訳(メタデータ) (2023-09-14T10:53:36Z) - Scalable variable selection for two-view learning tasks with projection
operators [0.0]
本稿では,2視点設定やベクトル値による教師付き学習問題に対して,新しい変数選択法を提案する。
当社のフレームワークは,データサンプルの数が数百万にものぼる,非常に大規模な選択タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-04T08:22:05Z) - Temperature Schedules for Self-Supervised Contrastive Methods on
Long-Tail Data [87.77128754860983]
本稿では,ロングテールデータ上での自己教師付き学習(SSL)の行動分析を行う。
大きな$tau$はグループ的な差別を強調するのに対し、小さな$tau$はより高いインスタンスの差別をもたらす。
動的$tau$を用いて、簡単なコサインスケジュールが学習表現に大きな改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-23T20:37:25Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - A Two-Stage Variable Selection Approach for Correlated High Dimensional
Predictors [4.8128078741263725]
本稿では,グループ変数選択問題に対して,変数クラスタリングステージとグループ変数ステージを組み合わせた2段階アプローチを提案する。
変数クラスタリングステージは、データからの情報を使用してグループ構造を見つけ、既存のグループ変数選択メソッドのパフォーマンスを向上させる。
この2段階法は, 予測精度, アクティブな予測器の選択精度において, より優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-24T17:28:34Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。