論文の概要: Causal Feature Selection with Dimension Reduction for Interpretable Text
Classification
- arxiv url: http://arxiv.org/abs/2010.04609v1
- Date: Fri, 9 Oct 2020 14:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:56:51.393055
- Title: Causal Feature Selection with Dimension Reduction for Interpretable Text
Classification
- Title(参考訳): 解釈可能なテキスト分類のための次元縮小による因果特徴抽出
- Authors: Guohou Shan, James Foulds, Shimei Pan
- Abstract要約: テキストの特徴選択のためのマッチングに基づく因果推論手法のクラスについて検討する。
テキストの特徴選択を改善するために,次元削減と因果推論を組み合わせた新たな因果特徴選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.20833506531457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text features that are correlated with class labels, but do not directly
cause them, are sometimesuseful for prediction, but they may not be insightful.
As an alternative to traditional correlation-basedfeature selection, causal
inference could reveal more principled, meaningful relationships betweentext
features and labels. To help researchers gain insight into text data, e.g. for
social scienceapplications, in this paper we investigate a class of
matching-based causal inference methods fortext feature selection. Features
used in document classification are often high dimensional, howeverexisting
causal feature selection methods use Propensity Score Matching (PSM) which is
known to beless effective in high-dimensional spaces. We propose a new causal
feature selection framework thatcombines dimension reduction with causal
inference to improve text feature selection. Experiments onboth synthetic and
real-world data demonstrate the promise of our methods in improving
classificationand enhancing interpretability.
- Abstract(参考訳): クラスラベルと相関するが直接引き起こさないテキスト特徴は、時には予測に役立ちますが、洞察に富むものではないかもしれません。
従来の相関に基づく特徴選択の代替として、因果推論はより原理的で意味のあるテキスト特徴とラベルの関係を明らかにする可能性がある。
本稿では,研究者がテキストデータ,例えばソーシャルサイエンスアプリケーションについて洞察を得るのを助けるために,テキスト特徴選択のためのマッチングに基づく因果推論手法のクラスについて検討する。
文書分類で使用される特徴はしばしば高次元であるが、因果的特徴選択法は高次元空間において無益であることが知られているプロペンシティスコアマッチング(psm)を用いる。
本稿では,テキスト特徴選択を改善するために,因果推論と次元縮小を組み合わせた新しい因果特徴選択フレームワークを提案する。
合成データと実世界のデータの両方に関する実験は, 分類と解釈可能性の向上における手法の有望さを示している。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - IDEAL: Influence-Driven Selective Annotations Empower In-Context
Learners in Large Language Models [66.32043210237768]
本稿では,影響駆動型選択的アノテーション手法を提案する。
アノテーションのコストを最小限に抑えつつ、コンテキスト内サンプルの品質を向上させることを目的としている。
様々なベンチマークで提案手法の優位性を確認する実験を行った。
論文 参考訳(メタデータ) (2023-10-16T22:53:54Z) - Description-Based Text Similarity [59.552704474862004]
我々は、その内容の抽象的な記述に基づいて、テキストを検索する必要性を特定する。
そこで本研究では,近隣の標準探索で使用する場合の精度を大幅に向上する代替モデルを提案する。
論文 参考訳(メタデータ) (2023-05-21T17:14:31Z) - Selective Text Augmentation with Word Roles for Low-Resource Text
Classification [3.4806267677524896]
異なる単語はテキスト分類において異なる役割を担い、それによってテキスト拡張の適切な役割を戦略的に選択することができる。
本研究では,まず,テキスト中の単語とテキストカテゴリの関係を,統計的相関と意味的類似性の観点から同定する。
本稿では,STA(Selective Text Augmentation)と呼ばれる新たな拡張手法を提案する。
論文 参考訳(メタデータ) (2022-09-04T08:13:11Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Does a Hybrid Neural Network based Feature Selection Model Improve Text
Classification? [9.23545668304066]
関連する特徴を得るためのハイブリッド特徴選択手法を提案する。
次に、特徴選択とニューラルネットワークパイプラインを実装する3つの方法を示す。
また,いくつかのデータセットの精度もわずかに向上した。
論文 参考訳(メタデータ) (2021-01-22T09:12:19Z) - Classifying Scientific Publications with BERT -- Is Self-Attention a
Feature Selection Method? [0.0]
科学論文分類のための微調整シナリオにおけるBERTの自己保持機構について検討する。
記事のドメインに強く関係する単語に自己注意がどのように焦点をあてるかを観察する。
テキスト分類に通常用いられる特徴選択法と,最も参加者の多い単語のサブセットを比較し,評価する。
論文 参考訳(メタデータ) (2021-01-20T13:22:26Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Identifying Spurious Correlations for Robust Text Classification [9.457737910527829]
そこで本研究では,テキスト分類におけるスプリアスと真の相関を区別する手法を提案する。
我々は、治療効果推定器から得られる特徴を用いて、突発的な相関を「遺伝子」と区別する。
4つのデータセットの実験は、このアプローチを使って特徴の選択を知らせることが、より堅牢な分類につながることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T03:49:22Z) - Don't Judge an Object by Its Context: Learning to Overcome Contextual
Bias [113.44471186752018]
既存のモデルは、認識精度を向上させるために、オブジェクトとそのコンテキスト間の共起を利用することが多い。
この研究は、学習した特徴表現の堅牢性を改善するために、そのような文脈バイアスに対処することに焦点を当てている。
論文 参考訳(メタデータ) (2020-01-09T18:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。