論文の概要: Decoding the Alphabet Soup of Degrees in the United States Postsecondary
Education System Through Hybrid Method: Database and Text Mining
- arxiv url: http://arxiv.org/abs/2309.13050v1
- Date: Wed, 6 Sep 2023 16:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-01 12:35:50.733885
- Title: Decoding the Alphabet Soup of Degrees in the United States Postsecondary
Education System Through Hybrid Method: Database and Text Mining
- Title(参考訳): ハイブリッド手法による米国中等教育システムにおけるAlphabetの人種分離のデコード:データベースとテキストマイニング
- Authors: Sahar Voghoei, James Byars, John A Miller, Khaled Rasheed, and Hamid A
Arabnia
- Abstract要約: 本稿では,全国学生クリアリングハウス(NSC)の学生追跡レポートで明快に表現された後中等教育のレベル(学士、修士等)を予測するモデルを提案する。
このモデルは4つの異なるグレードのマルチラベルデータセットで訓練され、最も洗練されたデータセットで97.83%の精度で返却された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a model to predict the levels (e.g., Bachelor, Master,
etc.) of postsecondary degree awards that have been ambiguously expressed in
the student tracking reports of the National Student Clearinghouse (NSC). The
model will be the hybrid of two modules. The first module interprets the
relevant abbreviatory elements embedded in NSC reports by referring to a
comprehensive database that we have made of nearly 950 abbreviations for degree
titles used by American postsecondary educators. The second module is a
combination of feature classification and text mining modeled with CNN-BiLSTM,
which is preceded by several steps of heavy pre-processing. The model proposed
in this paper was trained with four multi-label datasets of different grades of
resolution and returned 97.83\% accuracy with the most sophisticated dataset.
Such a thorough classification of degree levels will provide insights into the
modeling patterns of student success and mobility. To date, such a
classification strategy has not been attempted except using manual methods and
simple text parsing logic.
- Abstract(参考訳): 本稿では,国立学生クリアリングハウス(nsc)の学生追跡レポートであいまいに表現されたポスト・セカンダリー・アワードのレベル(独身者,修士など)を予測するモデルを提案する。
モデルは2つのモジュールのハイブリッドになります。
第1のモジュールは、nscレポートに埋め込まれた関連する省略要素を、米国後期教育機関が使用する学位タイトルの950近い略語から作成した包括的なデータベースを参照して解釈する。
第2のモジュールは、CNN-BiLSTMでモデル化された特徴分類とテキストマイニングの組み合わせである。
この論文で提案されたモデルは、解像度の異なる4つのマルチラベルデータセットでトレーニングされ、最も洗練されたデータセットで97.83\%の精度を返した。
このような学位レベルの詳細な分類は、学生の成功とモビリティのモデリングパターンに関する洞察を提供するだろう。
これまでこのような分類戦略は、手作業の方法と単純なテキスト解析ロジックを使う以外は試みられていない。
関連論文リスト
- LLM-based feature generation from text for interpretable machine learning [0.0]
埋め込みやback-of-wordsのような既存のテキスト表現は、その高次元性や欠落、あるいは疑わしい特徴レベルの解釈性のため、ルール学習には適さない。
本稿では,テキストから少数の解釈可能な特徴を抽出することにより,大規模言語モデル(LLM)がこの問題に対処できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-09-11T09:29:28Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Multilevel Sentence Embeddings for Personality Prediction [0.0]
文の階層構造と極性に応じて,文をマッピングする2段階のアプローチを提案する。
我々の単一モデルアプローチは、複数のクラス固有の分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-09T20:02:18Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Hierarchical Text Classification of Urdu News using Deep Neural Network [0.0]
本稿では,ウルドゥー語におけるニュースの階層的テキスト分類のためのディープラーニングモデルを提案する。
スポーツ、テクノロジー、エンターテイメントという8つのジャンルに属する8つのオンラインニュースサイトから51,325の文章で構成されている。
論文 参考訳(メタデータ) (2021-07-07T11:06:11Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。