論文の概要: Analogical Relevance Index
- arxiv url: http://arxiv.org/abs/2301.04134v1
- Date: Sun, 8 Jan 2023 23:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 14:10:55.448407
- Title: Analogical Relevance Index
- Title(参考訳): 分析関連指標
- Authors: Suryani Lim, Henri Prade, Gilles Richard
- Abstract要約: データセットの最も重要な特徴に注目することは、機械学習(ML)とデータマイニングの両方で有用である。
データマイニングでは、重要な特徴を特定することは、データの理解を深めるだけでなく、視覚化にも不可欠である。
本稿では,類比に着想を得た特徴を同定する新しい方法を示す。
- 参考スコア(独自算出の注目度): 9.861775841965386
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Focusing on the most significant features of a dataset is useful both in
machine learning (ML) and data mining. In ML, it can lead to a higher accuracy,
a faster learning process, and ultimately a simpler and more understandable
model. In data mining, identifying significant features is essential not only
for gaining a better understanding of the data but also for visualization. In
this paper, we demonstrate a new way of identifying significant features
inspired by analogical proportions. Such a proportion is of the form of "a is
to b as c is to d", comparing two pairs of items (a, b) and (c, d) in terms of
similarities and dissimilarities. In a classification context, if the
similarities/dissimilarities between a and b correlate with the fact that a and
b have different labels, this knowledge can be transferred to c and d,
inferring that c and d also have different labels. From a feature selection
perspective, observing a huge number of such pairs (a, b) where a and b have
different labels provides a hint about the importance of the features where a
and b differ. Following this idea, we introduce the Analogical Relevance Index
(ARI), a new statistical test of the significance of a given feature with
respect to the label. ARI is a filter-based method. Filter-based methods are
ML-agnostic but generally unable to handle feature redundancy. However, ARI can
detect feature redundancy. Our experiments show that ARI is effective and
outperforms well-known methods on a variety of artificial and some real
datasets.
- Abstract(参考訳): データセットの最も重要な機能にフォーカスすることは、機械学習(ML)とデータマイニングの両方で有用である。
MLでは、より高い精度、より高速な学習プロセス、そして究極的にはよりシンプルで理解しやすいモデルにつながる可能性がある。
データマイニングでは、重要な特徴を特定することは、データの理解を深めるだけでなく、視覚化にも不可欠である。
本稿では,類似の比率に触発された重要な特徴を識別する新しい手法を提案する。
このような比例は「a は b であって c は d である」という形のものであり、類似点と相似点の2つの項目 (a, b) と (c, d) を比較している。
分類文脈において、a と b の類似性と a と b が異なるラベルを持つという事実とが一致する場合、この知識は c と d に移され、c と d も異なるラベルを持つと推定される。
特徴選択の観点からは、a と b が異なるラベルを持つような膨大な数のペア (a, b) を観察することは、a と b が異なる特徴の重要性を示唆する。
この考え方に従い,ラベルに対する特徴の意義に関する新しい統計テストであるアナロジー・アソシエーション・インデックス(ari)を導入する。
ARIはフィルタベースの手法である。
フィルタベースのメソッドはMLに依存しないが、一般的に特徴冗長性を扱うことができない。
しかし、ARIは特徴の冗長性を検出することができる。
実験の結果,ARIは多種多様な人工的および実際のデータセットにおいて,よく知られた手法よりも優れていることがわかった。
関連論文リスト
- Causal Effect Regularization: Automated Detection and Removal of
Spurious Attributes [13.852987916253685]
多くの分類データセットでは、タスクラベルはいくつかの入力属性と突発的に相関している。
本稿では,ラベルに対する因果関係を推定することにより,スプリアス属性を自動的に識別する手法を提案する。
本手法は, 因果効果のノイズ評価においても, 突発性特性への依存を緩和する。
論文 参考訳(メタデータ) (2023-06-19T17:17:42Z) - Non-contrastive representation learning for intervals from well logs [58.70164460091879]
石油・ガス産業における表現学習問題は、ログデータに基づく表現を一定間隔で提供するモデルを構築することを目的としている。
可能なアプローチの1つは、自己教師付き学習(SSL)である。
私たちは、よくログするデータのための非コントラストSSLを最初に導入しました。
論文 参考訳(メタデータ) (2022-09-28T13:27:10Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Identifiable Variational Autoencoders via Sparse Decoding [37.30831737046145]
高次元データに基づく教師なし表現学習のための深層生成モデルであるSparse VAEを開発した。
まず、Sparse VAEが識別可能であることを示し、モデルから引き出されたデータを考えると、一意に最適な要素の集合が存在する。
シミュレーションデータと実データの両方を用いて,Sparse VAEを実証研究する。
論文 参考訳(メタデータ) (2021-10-20T22:11:33Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - Comparing interpretability and explainability for feature selection [0.6015898117103068]
各種ブラックボックスおよび解釈可能な機械学習手法における特徴選択法としての可変重要度の性能について検討する。
その結果,XGBoost はネイティブ変数重要度法や SHAP によらず,関連する特徴と無関係な特徴を明確に区別することができないことがわかった。
論文 参考訳(メタデータ) (2021-05-11T20:01:23Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Bayesian Importance of Features (BIF) [11.312036995195594]
ディリクレ分布を用いて入力特徴の重要性を定義し、近似ベイズ推論により学習する。
学習された重要性は確率論的解釈を持ち、モデルの出力に対する各入力特徴の相対的な重要性を提供する。
本手法は, 各種合成および実データに対する有効性を示す。
論文 参考訳(メタデータ) (2020-10-26T19:55:58Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Dataset Bias in Few-shot Image Recognition [57.25445414402398]
まず,基本カテゴリから学習した伝達可能能力の影響について検討する。
第2に、データセット構造と異なる少数ショット学習方法から、異なるデータセットのパフォーマンス差について検討する。
論文 参考訳(メタデータ) (2020-08-18T14:46:23Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。