論文の概要: The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering
- arxiv url: http://arxiv.org/abs/2011.08127v1
- Date: Mon, 16 Nov 2020 17:47:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:07:29.155051
- Title: The Influence of Domain-Based Preprocessing on Subject-Specific
Clustering
- Title(参考訳): ドメインベース前処理が主観的クラスタリングに及ぼす影響
- Authors: Alexandra Gkolia, Nikhil Fernandes, Nicolas Pizzo, James Davenport and
Akshar Nair
- Abstract要約: 大学におけるオンライン教育の大部分を突然移行させることで、学者の作業負荷が増大した。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
本稿では,タグ付けデータセットの領域を探求し,コードの抜粋の同定と経験的結果の提供に焦点をあてる。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sudden change of moving the majority of teaching online at Universities
due to the global Covid-19 pandemic has caused an increased amount of workload
for academics. One of the contributing factors is answering a high volume of
queries coming from students. As these queries are not limited to the
synchronous time frame of a lecture, there is a high chance of many of them
being related or even equivalent. One way to deal with this problem is to
cluster these questions depending on their topic. In our previous work, we
aimed to find an improved method of clustering that would give us a high
efficiency, using a recurring LDA model. Our data set contained questions
posted online from a Computer Science course at the University of Bath. A
significant number of these questions contained code excerpts, which we found
caused a problem in clustering, as certain terms were being considered as
common words in the English language and not being recognised as specific code
terms. To address this, we implemented tagging of these technical terms using
Python, as part of preprocessing the data set. In this paper, we explore the
realms of tagging data sets, focusing on identifying code excerpts and
providing empirical results in order to justify our reasoning.
- Abstract(参考訳): 世界的な新型コロナウイルス(covid-19)パンデミックでオンライン教育の大半を大学に移すという突然の変化は、学者の労働負荷を増加させている。
寄与する要因の1つは、学生から来る大量のクエリに答えることである。
これらのクエリは講義の同期時間フレームに制限されないため、それらの多くは関連しているか、同等である可能性が高い。
この問題に対処するひとつの方法は、トピックに応じてこれらの質問をクラスタ化することです。
これまでの研究では,繰り返し発生するLDAモデルを用いて,高い効率性が得られるクラスタリング法の改善を目指していた。
私たちのデータセットには、バース大学のコンピュータサイエンスコースからオンラインに投稿された質問が含まれていました。
これらの質問の多くは、特定の単語が英語の一般的な単語と見なされ、特定の符号語として認識されていないため、クラスタリングに問題を引き起こしたコード抜粋を含んでいた。
これを解決するために、データセットの事前処理の一環として、Pythonを使ってこれらの技術的用語のタグ付けを実装しました。
本稿では,データ集合をタグ付けし,コードの抜粋を識別し,推論を正当化するために経験的な結果を提供する領域について検討する。
関連論文リスト
- Open Domain Question Answering with Conflicting Contexts [55.739842087655774]
あいまいでオープンなドメインの質問の25%は、Google Searchを使って検索すると、コンフリクトのあるコンテキストにつながります。
我々はアノテータに正しい回答の選択についての説明を依頼する。
論文 参考訳(メタデータ) (2024-10-16T07:24:28Z) - QUITO-X: An Information Bottleneck-based Compression Algorithm with Cross-Attention [37.25151458038128]
本稿では,メトリクスが要求する特性を調べるために,情報ボトルネック理論を導入する。
これに影響を受け、エンコーダ・デコーダアーキテクチャにおけるクロスアテンションを新しいメトリクスとして使用します。
我々の単純な手法は、レイテンシーの低い小さなモデルでは大幅に性能が向上する。
論文 参考訳(メタデータ) (2024-08-20T02:44:45Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Attention-based model for predicting question relatedness on Stack
Overflow [0.0]
Stack Overflowにおける質問間の関連性を自動的に予測するアテンションベースの文対相互作用モデル(ASIM)を提案する。
ASIMは、Precision、Recall、Micro-F1評価メトリクスのベースラインアプローチを大幅に改善しました。
私たちのモデルは、Ask Ubuntuの重複質問検出タスクでもうまく機能します。
論文 参考訳(メタデータ) (2021-03-19T12:18:03Z) - Unification of HDP and LDA Models for Optimal Topic Clustering of
Subject Specific Question Banks [55.41644538483948]
オンラインコースの人気が高まると、学者向けのコース関連クエリの数が増加することになる。
個々の質問に答えるのに費やす時間を短縮するために、それらをクラスタリングするのは理想的な選択です。
階層ディリクレプロセスを用いて、LDAモデルの実行に対して最適なトピック番号を入力します。
論文 参考訳(メタデータ) (2020-10-04T18:21:20Z) - ClarQ: A large-scale and diverse dataset for Clarification Question
Generation [67.1162903046619]
そこで我々は,スタックエクスチェンジから抽出したポストコメンデーションに基づいて,多様な,大規模な明確化質問データセットの作成を支援する,新しいブートストラップフレームワークを考案した。
質問応答の下流タスクに適用することで,新たに作成したデータセットの有用性を定量的に示す。
我々はこのデータセットを公開し、ダイアログと質問応答システムの拡張という大きな目標を掲げて、質問生成の分野の研究を促進する。
論文 参考訳(メタデータ) (2020-06-10T17:56:50Z) - Active Learning for Skewed Data Sets [25.866341631677688]
重度のクラス不均衡(スキュー)と少数の初期訓練データという2つの特徴を持つ問題に焦点をあてる。
本研究では,現在ラベル付けされているトレーニング例を通じて利用可能な知識を活用できるハイブリッド能動学習アルゴリズム(HAL)を提案する。
論文 参考訳(メタデータ) (2020-05-23T01:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。