論文の概要: Training data generation for context-dependent rubric-based short answer grading
- arxiv url: http://arxiv.org/abs/2603.28537v1
- Date: Mon, 30 Mar 2026 14:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.461069
- Title: Training data generation for context-dependent rubric-based short answer grading
- Title(参考訳): 文脈依存ルーブリックに基づく短解格付けのための学習データ生成
- Authors: Pavel Šindelář, Dávid Slivka, Christopher Bouma, Filip Prášil, Ondřej Bojar,
- Abstract要約: 比較的小さな機密データセットのみを参照として、大規模なトレーニングデータセットの作成方法を示す。
初期の実験は、これらのアプローチの1つがモデルトレーニングの改善につながることを示唆している。
- 参考スコア(独自算出の注目度): 0.2936007114555107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every 4 years, the PISA test is administered by the OECD to test the knowledge of teenage students worldwide and allow for comparisons of educational systems. However, having to avoid language differences and annotator bias makes the grading of student answers challenging. For these reasons, it would be interesting to compare methods of automatic student answer grading. To train some of these methods, which require machine learning, or to compute parameters or select hyperparameters for those that do not, a large amount of domain-specific data is needed. In this work, we explore a small number of methods for creating a large-scale training dataset using only a relatively small confidential dataset as a reference, leveraging a set of very simple derived text formats to preserve confidentiality. Using these methods, we successfully created three surrogate datasets that are, at the very least, superficially more similar to the reference dataset than purely the result of prompt-based generation. Early experiments suggest one of these approaches might also lead to improved model training.
- Abstract(参考訳): PISAテストは4年ごとにOECDによって実施され、世界中の10代の生徒の知識をテストし、教育システムの比較を可能にする。
しかし、言語の違いやアノテータバイアスを避けることは、学生の回答の格付けを難しくする。
これらの理由から,自動解答の方法を比較することは興味深い。
これらの手法のいくつかをトレーニングするには、機械学習を必要とするか、パラメータを計算したり、パラメータを指定したりする必要がある。
本研究では,比較的小さな機密データセットのみを参照として使用して大規模なトレーニングデータセットを作成するための,ごく少数の手法について検討する。
これらの手法を用いて、3つのサロゲートデータセットを作成したが、これは少なくとも、純粋にプロンプトベース生成の結果よりも、参照データセットと表面的には類似している。
初期の実験は、これらのアプローチの1つがモデルトレーニングの改善につながることを示唆している。
関連論文リスト
- Does This Look Familiar to You? Knowledge Analysis via Model Internal Representations [0.0]
効果的なトレーニングデータ選択のための明確な方法論は存在しない。
モデル内部表現(KAMIR)は、これらの制限を克服する新しいアプローチである。
機械読解や要約など、幅広いタスクに適用することができる。
論文 参考訳(メタデータ) (2025-09-09T01:08:15Z) - Automatic Question & Answer Generation Using Generative Large Language Model (LLM) [0.0]
本研究では,NLPにおける教師なし学習手法の活用を提案する。
カスタマイズされたモデルは、教育者、インストラクター、テキストベースの評価に従事する個人に対して効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-08-26T23:36:13Z) - RECOST: External Knowledge Guided Data-efficient Instruction Tuning [25.985023475991625]
我々は、現在のデータ効率のよい命令チューニング手法は、元の命令チューニングデータセットの品質に大きく依存していると論じる。
我々は、外部知識ベースの再評価と多様性に一貫性のあるサンプリングを単一のパイプラインに統合する、textbfRECOSTと呼ばれるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-27T09:47:36Z) - Going beyond research datasets: Novel intent discovery in the industry
setting [60.90117614762879]
本稿では,大規模なeコマースプラットフォームに展開する意図発見パイプラインを改善する手法を提案する。
ドメイン内データに基づく事前学習型言語モデルの利点を示す。
また,クラスタリングタスクの微調整中に,実生活データセットの会話構造(質問と回答)を利用するための最善の方法も考案した。
論文 参考訳(メタデータ) (2023-05-09T14:21:29Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - BERT-based distractor generation for Swedish reading comprehension
questions using a small-scale dataset [0.0]
そこで本研究では,小さなデータセットのみを用いて,障害を自動生成するBERTベースの新しい手法を提案する。
評価の結果,テストセットにおけるMCQの50%以上に対して,本手法は1つ以上の可視性障害を発生させることがわかった。
論文 参考訳(メタデータ) (2021-08-09T12:15:47Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。