論文の概要: Japanese-English Sentence Translation Exercises Dataset for Automatic
Grading
- arxiv url: http://arxiv.org/abs/2403.03396v1
- Date: Wed, 6 Mar 2024 01:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:37:18.329410
- Title: Japanese-English Sentence Translation Exercises Dataset for Automatic
Grading
- Title(参考訳): 自動採点のための日英文翻訳演習データセット
- Authors: Naoki Miura, Hiroaki Funayama, Seiya Kikuchi, Yuichiroh Matsubayashi,
Yuya Iwase, Kentaro Inui
- Abstract要約: 本稿では,文翻訳演習(STE)の自動評価タスクを提案する。
日本語と英語のSTEデータセットを作成し、21の質問と合計3,498人の学生回答(平均167件)を収録する。
このデータセットを用いて,テキスト内学習の少ない細調整BERTモデルやGPTモデルを含むベースラインの性能を実演する。
- 参考スコア(独自算出の注目度): 16.564184260893946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes the task of automatic assessment of Sentence Translation
Exercises (STEs), that have been used in the early stage of L2 language
learning. We formalize the task as grading student responses for each rubric
criterion pre-specified by the educators. We then create a dataset for STE
between Japanese and English including 21 questions, along with a total of 3,
498 student responses (167 on average). The answer responses were collected
from students and crowd workers. Using this dataset, we demonstrate the
performance of baselines including finetuned BERT and GPT models with few-shot
in-context learning. Experimental results show that the baseline model with
finetuned BERT was able to classify correct responses with approximately 90% in
F1, but only less than 80% for incorrect responses. Furthermore, the GPT models
with few-shot learning show poorer results than finetuned BERT, indicating that
our newly proposed task presents a challenging issue, even for the
stateof-the-art large language models.
- Abstract(参考訳): 本稿では,L2言語学習の初期段階において用いられてきた文翻訳演習(STE)の自動評価の課題を提案する。
本研究は,教育者によって事前に規定された各ルーブリック基準に対して,学生の回答の段階付けとしてタスクを形式化する。
次に,21の質問を含む日本語と英語のsteのデータセットを作成し,合計3,498人の学生の回答を得た(平均167件)。
回答は学生や集団労働者から集められた。
このデータセットを用いて,テキスト内学習の少ない細調整BERTモデルやGPTモデルを含むベースラインの性能を示す。
実験結果から,細粒化BERTを用いたベースラインモデルではF1の約90%の正解を正解できるが,正解率は80%以下であった。
さらに,少数ショット学習によるGPTモデルは細調整されたBERTよりも低調な結果を示し,最先端の大規模言語モデルにおいても,新たに提案した課題が課題であることを示す。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Learning from Partially Annotated Data: Example-aware Creation of
Gap-filling Exercises for Language Learning [19.43668931500507]
本稿では,言語学習,特に文法演習のためのギャップ埋め演習の自動作成に着目する。
i) 上記のギャップ充足運動生成タスクに特化して設計された新しいニューラルネットワークアーキテクチャ、および(ii) フランス語文法のための実世界のベンチマークデータセットをコントリビュートする。
モデル実装とデータセットは今後の研究を促進するために公開されており、文法演習作成における部分注釈付きデータ予測タスクの標準化された評価とベースラインソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-02T14:54:16Z) - LIMA: Less Is More for Alignment [112.93890201395477]
65B パラメータ LLaMa 言語モデル LIMA のトレーニングを行う。
LIMAは、非常に強力なパフォーマンスを示し、少数の例から特定のレスポンスフォーマットに従うことを学ぶ。
制御されたヒトの研究では、LIMAからの反応は43%の症例において、GPT-4に等しいか、厳格に好まれる。
論文 参考訳(メタデータ) (2023-05-18T17:45:22Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z) - Context Matters: A Strategy to Pre-train Language Model for Science
Education [4.053049694533914]
BERTベースの言語モデルは、様々な言語関連タスクにおいて、従来のNLPモデルよりも大きな優位性を示している。
学生が使用する言語は、BERTのトレーニングソースであるジャーナルやウィキペディアの言語とは異なる。
本研究は,教育領域におけるドメイン固有データに対する継続事前学習の有効性を確認した。
論文 参考訳(メタデータ) (2023-01-27T23:50:16Z) - UU-Tax at SemEval-2022 Task 3: Improving the generalizability of
language models for taxonomy classification through data augmentation [0.0]
本稿では,SemEval-2022 Task 3 PreTENS: Presuposed Taxonomies Evaluation Neural Network Semanticsについて述べる。
タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。
より優れた分類のための言語モデルの堅牢性と一般化性を高める効果的な方法を提案する。
論文 参考訳(メタデータ) (2022-10-07T07:41:28Z) - Automatic Short Math Answer Grading via In-context Meta-learning [2.0263791972068628]
本研究では,数学質問に対する児童生徒の回答に対する自動短解格付けの問題について検討する。
我々は、数学的な内容に適応した人気のある言語モデルBERTの変種である MathBERT をベースモデルとして使用しています。
第二に、言語モデルへの入力としてスコアリングサンプルを提供する、コンテキスト内学習アプローチを用いる。
論文 参考訳(メタデータ) (2022-05-30T16:26:02Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Making Pre-trained Language Models Better Few-shot Learners [11.90626040104822]
最近のGPT-3モデルは、自然言語プロンプトといくつかのタスクデモンストレーションを入力コンテキストとして活用することで、驚くべき数ショットパフォーマンスを実現します。
これらの知見に触発されて,より実用的なシナリオで,微調整が計算効率のよい小型言語モデルを用いて,小数点学習の研究を行った。
LM-BFF - 少数の注釈付き例で、言語モデルの微調整のためのシンプルで補完的な技術のスイート - 言語モデルのより良い少数ショット微調整を提示します。
論文 参考訳(メタデータ) (2020-12-31T17:21:26Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。