論文の概要: DeBERTa-KC: A Transformer-Based Classifier for Knowledge Construction in Online Learning Discourse
- arxiv url: http://arxiv.org/abs/2510.19858v1
- Date: Tue, 21 Oct 2025 20:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.335955
- Title: DeBERTa-KC: A Transformer-Based Classifier for Knowledge Construction in Online Learning Discourse
- Title(参考訳): DeBERTa-KC:オンライン学習談話における知識構築のためのトランスフォーマーベース分類器
- Authors: Jindi Wang, Yidi Zhang, Zhaoxing Li,
- Abstract要約: DeBERTa-KCは、オンラインサイエンス学習談話における知識構築(KC)レベルの自動分類のためのトランスフォーマーベースのモデルである。
4つのKCカテゴリ(textitnonKC, textitShare, textitExplore, textitNegotiate)にまたがって20,000の手動で注釈付きサンプルが作成された。
提案したモデルは,DeBERTa-v3を拡張し,Focal Loss, Label Smoothing, R-Drop regularization を用いてクラス不均衡に対処し,一般化を向上させる。
- 参考スコア(独自算出の注目度): 4.618342129914455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents DeBERTa-KC, a transformer-based model for automatic classification of knowledge construction (KC) levels in online science learning discourse. Using comments collected from four popular YouTube science channels (2022--2024), a balanced corpus of 20,000 manually annotated samples was created across four KC categories: \textit{nonKC}, \textit{Share}, \textit{Explore}, and \textit{Negotiate}. The proposed model extends DeBERTa-v3 with Focal Loss, Label Smoothing, and R-Drop regularization to address class imbalance and enhance generalization. A reproducible end-to-end pipeline was implemented, encompassing data extraction, annotation, preprocessing, training, and evaluation. Across 10-fold stratified cross-validation, DeBERTa-KC achieved a macro-F1 of $0.836 \pm 0.008$, significantly out-performing both classical and transformer baselines ($p<0.01$). Per-category results indicate strong sensitivity to higher-order epistemic engagement, particularly in \textit{Explore} and \textit{Negotiate} discourse. These findings demonstrate that large language models can effectively capture nuanced indicators of knowledge construction in informal digital learning environments, offering scalable, theory-informed approaches to discourse analysis and the development of automated tools for assessing epistemic engagement.
- Abstract(参考訳): 本研究では,オンライン学習談話における知識構築自動分類モデルであるDeBERTa-KCを提案する。
人気の4つのYouTubeサイエンスチャンネル(2022年-2024年)から収集されたコメントを用いて、KCの4つのカテゴリ( \textit{nonKC}, \textit{Share}, \textit{Explore}, \textit{Negotiate})に2万の注釈付きサンプルのバランスがとられたコーパスが作成された。
提案したモデルは,DeBERTa-v3を拡張し,Focal Loss, Label Smoothing, R-Drop regularization を用いてクラス不均衡に対処し,一般化を向上させる。
データ抽出、アノテーション、前処理、トレーニング、評価を含む再現可能なエンドツーエンドパイプラインが実装された。
DeBERTa-KCは10倍の層状クロスバリデーションで$0.836 \pm 0.008$のマクロF1を達成し、古典的およびトランスフォーマーベースライン(p<0.01$)を著しく上回った。
特にtextit{Explore} と \textit{Negotiate} の談話では、カテゴリーごとの結果は高次てんかんに対する強い感受性を示す。
これらの結果から,大規模言語モデルにより,非公式なデジタル学習環境における知識構築のニュアンスな指標を効果的に把握し,言論分析へのスケーラブルで理論インフォームドなアプローチと,情緒的エンゲージメントを評価する自動化ツールの開発が可能であることが示唆された。
関連論文リスト
- StylOch at PAN: Gradient-Boosted Trees with Frequency-Based Stylometric Features [0.1499944454332829]
このバイナリAI検出タスクへの提出は、モジュラースタイルのパイプラインに基づいている。
我々は、分類器の訓練のために、50万以上の機械生成テキストの大規模なコーパスを収集する。
提案手法は,非神経的,計算コストが低く,説明可能なアプローチに従う。
論文 参考訳(メタデータ) (2025-07-16T09:21:20Z) - Analysis of Argument Structure Constructions in the Large Language Model BERT [0.0]
本研究は, BERTがArgument Structure Constructions (ASCs) をどのように処理し, 表現するかについて検討する。
4つのASCタイプにわたる2000文のデータセットを用いて、BERTのトークン埋め込みを12層にわたって分析した。
論文 参考訳(メタデータ) (2024-08-08T07:12:46Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Text Classification via Large Language Models [63.1874290788797]
テキスト分類に関わる複雑な言語現象に対処するために、Clue And Reasoning Prompting (CARP)を導入する。
注目すべきは、CARPが5つの広く使用されているテキスト分類ベンチマークのうち4つで新しいSOTAパフォーマンスを得ることだ。
さらに重要なのは、CARPが低リソースとドメイン適応のセットアップで素晴らしい能力を提供します。
論文 参考訳(メタデータ) (2023-05-15T06:24:45Z) - A Machine Learning Approach to Classifying Construction Cost Documents
into the International Construction Measurement Standard [0.0]
原価文書で提供される自然言語記述を分類する最初の自動モデル「Bills of Quantities」を紹介した。
英国中の24の大規模なインフラ建設プロジェクトから収集された5万件以上の項目のデータセットから学習する。
論文 参考訳(メタデータ) (2022-10-24T11:35:53Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。