論文の概要: Utilizing Semantic Textual Similarity for Clinical Survey Data Feature
Selection
- arxiv url: http://arxiv.org/abs/2308.09892v1
- Date: Sat, 19 Aug 2023 03:10:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:17:06.473068
- Title: Utilizing Semantic Textual Similarity for Clinical Survey Data Feature
Selection
- Title(参考訳): セマンティックテキスト類似性を利用した臨床調査データの特徴選択
- Authors: Benjamin C. Warner, Ziqi Xu, Simon Haroutounian, Thomas Kannampallil,
Chenyang Lu
- Abstract要約: 調査データから結果を予測する機械学習モデルは、過度に適合し、結果として一般化性が低下する可能性がある。
この機能の選択は、学習する機能の最適なサブセットを選択しようとするものだ。
特徴名と対象名の関係を言語モデル(LM)を用いて評価し,意味的テキスト類似度(STS)スコアを生成する。
STSを用いて最小冗長-最大関連性(mRMR)アルゴリズムで特徴を直接選択する性能について検討する。
- 参考スコア(独自算出の注目度): 4.5574502769585745
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Survey data can contain a high number of features while having a
comparatively low quantity of examples. Machine learning models that attempt to
predict outcomes from survey data under these conditions can overfit and result
in poor generalizability. One remedy to this issue is feature selection, which
attempts to select an optimal subset of features to learn upon. A relatively
unexplored source of information in the feature selection process is the usage
of textual names of features, which may be semantically indicative of which
features are relevant to a target outcome. The relationships between feature
names and target names can be evaluated using language models (LMs) to produce
semantic textual similarity (STS) scores, which can then be used to select
features. We examine the performance using STS to select features directly and
in the minimal-redundancy-maximal-relevance (mRMR) algorithm. The performance
of STS as a feature selection metric is evaluated against preliminary survey
data collected as a part of a clinical study on persistent post-surgical pain
(PPSP). The results suggest that features selected with STS can result in
higher performance models compared to traditional feature selection algorithms.
- Abstract(参考訳): 調査データは、比較的少ない例を持ちながら、多くの機能を含むことができる。
これらの条件下でのサーベイデータから結果を予測する機械学習モデルは、過剰に適合し、一般化しにくくなる可能性がある。
この問題に対する1つの修正は、学習すべき機能の最適なサブセットを選択しようとする機能選択である。
特徴選択プロセスにおける比較的探索されていない情報源は、特徴のテキスト名の使用である。
特徴名と対象名の関係を言語モデル(LM)を用いて評価し、意味的テキスト類似度(STS)スコアを生成し、特徴の選択に使用できる。
STSを用いて最小冗長-最大関連性(mRMR)アルゴリズムで特徴を直接選択する性能について検討する。
術後持続痛(ppsp)の臨床研究の一環として収集された予備調査データに対して,特徴選択指標としてのstsの性能を評価する。
その結果,stsで選択された特徴は従来の特徴選択アルゴリズムよりも高い性能モデルが得られることが示唆された。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Correlation Based Feature Subset Selection for Multivariate Time-Series
Data [2.055949720959582]
時系列データのストリームの相関は、与えられたデータマイニングタスクには、機能のごく一部しか必要としないことを意味する。
単一特徴分類器出力の相関パターンに基づいて特徴部分選択を行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-26T17:39:33Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。