論文の概要: Clustering Introductory Computer Science Exercises Using Topic Modeling
Methods
- arxiv url: http://arxiv.org/abs/2104.10748v1
- Date: Wed, 21 Apr 2021 20:23:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 00:56:15.247769
- Title: Clustering Introductory Computer Science Exercises Using Topic Modeling
Methods
- Title(参考訳): トピックモデリング手法を用いた計算機科学のクラスタリング
- Authors: Laura O. Moraes, Carlos Eduardo Pedreira
- Abstract要約: 教師が提供するコードソリューションを代表的なテキスト文書に変換する手法を提案する。
大学教授14名のデータを用いて,学習概念の解釈可能性を検討する。
その結果、現在のデータセットを用いて6つのセマンティックコヒーレントクラスタを確認した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually determining concepts present in a group of questions is a
challenging and time-consuming process. However, the process is an essential
step while modeling a virtual learning environment since a mapping between
concepts and questions using mastery level assessment and recommendation
engines are required. We investigated unsupervised semantic models (known as
topic modeling techniques) to assist computer science teachers in this task and
propose a method to transform Computer Science 1 teacher-provided code
solutions into representative text documents, including the code structure
information. By applying non-negative matrix factorization and latent Dirichlet
allocation techniques, we extract the underlying relationship between questions
and validate the results using an external dataset. We consider the
interpretability of the learned concepts using 14 university professors' data,
and the results confirm six semantically coherent clusters using the current
dataset. Moreover, the six topics comprise the main concepts present in the
test dataset, achieving 0.75 in the normalized pointwise mutual information
metric. The metric correlates with human ratings, making the proposed method
useful and providing semantics for large amounts of unannotated code.
- Abstract(参考訳): 質問のグループに存在する概念を手動で決定するのは、困難で時間のかかるプロセスです。
しかし、熟達度評価とレコメンデーションエンジンを用いた概念と質問のマッピングが必要であるため、このプロセスは仮想学習環境をモデル化する上で不可欠なステップである。
本課題におけるコンピュータサイエンスの教師を支援するための教師なし意味モデル(トピックモデリング技術)を調査し,教師が提供する1つのコードソリューションをコード構造情報を含む代表的なテキスト文書に変換する手法を提案する。
非負行列分解と潜在ディリクレ割当手法を適用することで,質問間の基礎的関係を抽出し,外部データセットを用いて検証する。
大学教授14人のデータを用いて学習概念の解釈可能性を検討し,現在のデータセットを用いて6つの意味的に一貫性のあるクラスタを検証した。
さらに、6つのトピックは、テストデータセットに存在する主要な概念で構成され、正規化ポイントワイドの相互情報メトリクスで0.75に達する。
このメトリクスは人間の評価と相関し、提案手法が有用であり、大量の無注釈コードに対して意味を提供する。
関連論文リスト
- Semantic-Driven Topic Modeling Using Transformer-Based Embeddings and Clustering Algorithms [6.349503549199403]
本研究は,トピック抽出プロセスのための革新的エンド・ツー・エンドのセマンティクス駆動トピックモデリング手法を提案する。
本モデルは,事前学習したトランスフォーマーベース言語モデルを用いて文書埋め込みを生成する。
ChatGPTや従来のトピックモデリングアルゴリズムと比較して、我々のモデルはより一貫性があり有意義なトピックを提供する。
論文 参考訳(メタデータ) (2024-09-30T18:15:31Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - A review on data-driven constitutive laws for solids [0.0]
この記事では、法律を発見し、エンコードし、代理し、エミュレートするための最先端のデータ駆動技術を強調します。
我々の目標は、過去数十年で開発された幅広い方法論に組織化された分類を提供することである。
論文 参考訳(メタデータ) (2024-05-06T17:33:58Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - What and How of Machine Learning Transparency: Building Bespoke
Explainability Tools with Interoperable Algorithmic Components [77.87794937143511]
本稿では,データ駆動予測モデルを説明するためのハンズオントレーニング教材について紹介する。
これらのリソースは、解釈可能な表現合成、データサンプリング、説明生成の3つのコアビルディングブロックをカバーする。
論文 参考訳(メタデータ) (2022-09-08T13:33:25Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Towards a Flexible Embedding Learning Framework [15.604564543883122]
本稿では,学習表現に組み込むことができる関係性の観点から柔軟な埋め込み学習フレームワークを提案する。
サンプリング機構は、入力と出力埋め込みによって捕捉された情報との直接接続を確立するために慎重に設計される。
実験の結果,提案するフレームワークは,関連エンティティ・リレーショナル・マトリクスのセットと合わせて,様々なデータマイニングタスクにおける既存の最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-23T08:00:56Z) - A Review of Meta-level Learning in the Context of Multi-component,
Multi-level Evolving Prediction Systems [6.810856082577402]
データから有用なパターンを抽出する自動的あるいは半自動的な方法の調査の必要性が高まっている。
与えられた問題に対する学習方法の最も適切なマッピングを見つけるには、深い専門家の知識と広範な計算資源が必要である。
データセットに最適な学習アルゴリズムをアドバイスできるインテリジェントなレコメンデーションエンジンが必要だ。
論文 参考訳(メタデータ) (2020-07-17T14:14:37Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。