論文の概要: ISSR: Iterative Selection with Self-Review for Vocabulary Test Distractor Generation
- arxiv url: http://arxiv.org/abs/2501.03462v1
- Date: Tue, 07 Jan 2025 01:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:51.877227
- Title: ISSR: Iterative Selection with Self-Review for Vocabulary Test Distractor Generation
- Title(参考訳): ISSR: ボキャブラリテストディトラクタ生成のための自己レビューによる反復的選択
- Authors: Yu-Cheng Liu, An-Zi Yen,
- Abstract要約: 本研究は,台湾の大学入学試験における英語語彙の問題に焦点を当てた。
本稿では,自己レビュー(ISSR)フレームワークによる反復的選択を提案する。
実験結果から,ISSRは可塑性分散器の生成において有望な性能を達成し,自己レビュー機構により,問題を無効化可能な分散器を効果的にフィルタすることがわかった。
- 参考スコア(独自算出の注目度): 4.894055891694307
- License:
- Abstract: Vocabulary acquisition is essential to second language learning, as it underpins all core language skills. Accurate vocabulary assessment is particularly important in standardized exams, where test items evaluate learners' comprehension and contextual use of words. Previous research has explored methods for generating distractors to aid in the design of English vocabulary tests. However, current approaches often rely on lexical databases or predefined rules, and frequently produce distractors that risk invalidating the question by introducing multiple correct options. In this study, we focus on English vocabulary questions from Taiwan's university entrance exams. We analyze student response distributions to gain insights into the characteristics of these test items and provide a reference for future research. Additionally, we identify key limitations in how large language models (LLMs) support teachers in generating distractors for vocabulary test design. To address these challenges, we propose the iterative selection with self-review (ISSR) framework, which makes use of a novel LLM-based self-review mechanism to ensure that the distractors remain valid while offering diverse options. Experimental results show that ISSR achieves promising performance in generating plausible distractors, and the self-review mechanism effectively filters out distractors that could invalidate the question.
- Abstract(参考訳): 語彙習得は、全ての中核的な言語スキルを支えるため、第二言語学習に不可欠である。
正確な語彙評価は、学習者の理解と文脈的使用を評価するテスト項目の標準化試験において特に重要である。
従来の研究は、英語の語彙テストの設計を支援するために、イントラクタを生成する方法を模索してきた。
しかし、現在のアプローチは、しばしば語彙データベースや事前定義されたルールに依存し、複数の正しいオプションを導入することで、質問を無効にするリスクを負う気晴らしをしばしば生み出す。
本研究では,台湾の大学入学試験における英語語彙の問題に着目した。
学生の反応分布を分析し,これらのテスト項目の特徴を把握し,今後の研究の参考となるものを提供する。
さらに,大きな言語モデル (LLM) が,語彙的テスト設計のために,教師が気晴らしを発生させるのにどう役立つか,という重要な制限を明らかにした。
これらの課題に対処するために,新たなLCMに基づく自己レビュー機構を取り入れた,自己レビュー(ISSR)フレームワークによる反復的選択を提案する。
実験結果から,ISSRは可塑性分散器の生成において有望な性能を達成し,自己レビュー機構により,問題を無効化可能な分散器を効果的にフィルタすることがわかった。
関連論文リスト
- LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Learning to Reuse Distractors to support Multiple Choice Question
Generation in Education [19.408786425460498]
本稿では,教師が複数選択質問(MCQ)の作成を支援するために,手作業による回答と注意散らしの集合をいかに活用するかを検討する。
データ駆動モデルをいくつか構築し,静的な特徴ベースモデルと比較した。
自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2022-10-25T12:48:56Z) - Question Personalization in an Intelligent Tutoring System [5.644357169513361]
教科能力の異なる学生に合った質問を生成すれば,生徒の学習能力が向上することを示す。
この知見は,質問の言語的実現が学生の学習結果に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-05-25T15:23:51Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Pedagogical Word Recommendation: A novel task and dataset on
personalized vocabulary acquisition for L2 learners [4.507860128918788]
Pedagogical Word Recommendation と呼ばれる新しいタスクのためのデータの提案と公開を行う。
PWRの主な目的は、学習者が既に見てきた他の単語に基づいて、ある学習者が与えられた単語を知っているかどうかを予測することである。
このITSの特徴として、学生は、自分たちが解決した質問から知らない単語を直接表示して、ワードブックを作成することができる。
論文 参考訳(メタデータ) (2021-12-27T17:52:48Z) - Analyzing the Limits of Self-Supervision in Handling Bias in Language [52.26068057260399]
我々は、言語モデルが、認識、識別、抽出、言い換えの4つのタスクのセマンティクスをいかにうまく捉えているかを評価する。
分析の結果,言語モデルでは,ジェンダーや政治的アフィリエイトなど,様々なバイアス次元にまたがって,これらのタスクを広範囲にわたって実行することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T05:36:08Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。