論文の概要: Unification of HDP and LDA Models for Optimal Topic Clustering of
Subject Specific Question Banks
- arxiv url: http://arxiv.org/abs/2011.01035v1
- Date: Sun, 4 Oct 2020 18:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 02:57:30.764802
- Title: Unification of HDP and LDA Models for Optimal Topic Clustering of
Subject Specific Question Banks
- Title(参考訳): 主題特定質問銀行の最適トピッククラスタリングのためのHDPとLDAモデルの統一
- Authors: Nikhil Fernandes, Alexandra Gkolia, Nicolas Pizzo, James Davenport,
Akshar Nair
- Abstract要約: オンラインコースの人気が高まると、学者向けのコース関連クエリの数が増加することになる。
個々の質問に答えるのに費やす時間を短縮するために、それらをクラスタリングするのは理想的な選択です。
階層ディリクレプロセスを用いて、LDAモデルの実行に対して最適なトピック番号を入力します。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has been an increasingly popular trend in Universities for curriculum
transformation to make teaching more interactive and suitable for online
courses. An increase in the popularity of online courses would result in an
increase in the number of course-related queries for academics. This, coupled
with the fact that if lectures were delivered in a video on demand format,
there would be no fixed time where the majority of students could ask
questions. When questions are asked in a lecture there is a negligible chance
of having similar questions repeatedly, but asynchronously this is more likely.
In order to reduce the time spent on answering each individual question,
clustering them is an ideal choice. There are different unsupervised models fit
for text clustering, of which the Latent Dirichlet Allocation model is the most
commonly used. We use the Hierarchical Dirichlet Process to determine an
optimal topic number input for our LDA model runs. Due to the probabilistic
nature of these topic models, the outputs of them vary for different runs. The
general trend we found is that not all the topics were being used for
clustering on the first run of the LDA model, which results in a less effective
clustering. To tackle probabilistic output, we recursively use the LDA model on
the effective topics being used until we obtain an efficiency ratio of 1.
Through our experimental results we also establish a reasoning on how Zeno's
paradox is avoided.
- Abstract(参考訳): 大学は、オンラインコースにもっとインタラクティブで適した教育を行うためのカリキュラム変換のトレンドが増えている。
オンラインコースの人気が高まると、学者向けのコース関連クエリの数が増加することになる。
このことは、もし講義がオンデマンドのビデオ形式で配信されたら、大多数の学生が質問できる時間がないという事実と相まっている。
講義で質問された場合、同様の質問を繰り返し行う可能性は無視できるが、非同期にすると、これはより起こりやすい。
個々の質問への回答に費やす時間を減らすためには、それらをクラスタリングするのが理想的な選択です。
テキストクラスタリングには異なる教師なしモデルがあり、その中ではLatent Dirichlet Allocationモデルが最も一般的に使われている。
階層ディリクレプロセスを用いて、LDAモデルの実行に対して最適なトピック番号を入力します。
これらのトピックモデルの確率的性質のため、それらの出力は異なる実行で異なる。
私たちが見つけた一般的な傾向は、すべてのトピックがLDAモデルの最初の実行でクラスタリングに使用されているわけではないということです。
確率的出力に対処するため,LDAモデルを有効トピックに再帰的に使用し,効率比1。
実験の結果から、ゼノのパラドックスはどのように回避されるのかという推論も確立した。
関連論文リスト
- Iterative Improvement of an Additively Regularized Topic Model [0.0]
本稿では,トピックモデルの反復的学習法を提案する。
いくつかの自然言語テキストの収集実験により、提案したITARモデルは、他の人気のあるトピックモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-11T18:22:12Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Resources for Brewing BEIR: Reproducible Reference Models and an
Official Leaderboard [47.73060223236792]
BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。
我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
論文 参考訳(メタデータ) (2023-06-13T00:26:18Z) - BUCA: A Binary Classification Approach to Unsupervised Commonsense
Question Answering [11.99004747630325]
非教師付きコモンセンス推論(UCR)は、コモンセンス推論データセットの構築が高価であるため、ますます人気が高まっている。
本稿では、下流の複数選択質問応答タスクを、その妥当性に応じて全ての候補回答をランク付けすることで、より単純な二分分類タスクに変換することを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:59:47Z) - Limits of Model Selection under Transfer Learning [18.53111473571927]
提案手法は,仮説クラスの選択によって異なることが知られているソース分布とターゲット分布の移動距離について検討する。
適応率、すなわち分布情報を持たないものは、オラクルレートよりも任意に遅くなる。
論文 参考訳(メタデータ) (2023-04-29T02:27:42Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering [55.41644538483948]
大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
論文 参考訳(メタデータ) (2020-11-16T17:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。