論文の概要: Natural Language-based Assessment of L2 Oral Proficiency using LLMs
- arxiv url: http://arxiv.org/abs/2507.10200v1
- Date: Mon, 14 Jul 2025 12:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.857198
- Title: Natural Language-based Assessment of L2 Oral Proficiency using LLMs
- Title(参考訳): LLMを用いたL2口腔能率の自然言語による評価
- Authors: Stefano Bannò, Rao Ma, Mengjie Qian, Siyuan Tang, Kate Knill, Mark Gales,
- Abstract要約: 自然言語に基づくアセスメント(NLA)は、can-doディスクリプタの形式で表現された命令を使用する第二言語アセスメントのアプローチである。
本研究では,オープンソース LLM である Qwen 2.5 72B を用いて,公開されている S&I コーパスからの応答を評価する。
提案手法は,タスクに精巧に調整されたLLMを上回りませんが,この目的に特化して訓練されたBERTベースモデルよりも優れています。
- 参考スコア(独自算出の注目度): 5.931245606235828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language-based assessment (NLA) is an approach to second language assessment that uses instructions - expressed in the form of can-do descriptors - originally intended for human examiners, aiming to determine whether large language models (LLMs) can interpret and apply them in ways comparable to human assessment. In this work, we explore the use of such descriptors with an open-source LLM, Qwen 2.5 72B, to assess responses from the publicly available S&I Corpus in a zero-shot setting. Our results show that this approach - relying solely on textual information - achieves competitive performance: while it does not outperform state-of-the-art speech LLMs fine-tuned for the task, it surpasses a BERT-based model trained specifically for this purpose. NLA proves particularly effective in mismatched task settings, is generalisable to other data types and languages, and offers greater interpretability, as it is grounded in clearly explainable, widely applicable language descriptors.
- Abstract(参考訳): 自然言語に基づくアセスメント(NLA)は、カンドドディスクリプタ(can-do descriptor)の形式で表現された命令を使用して、大きな言語モデル(LLM)が人間のアセスメントに匹敵する方法で解釈し適用できるかどうかを判断する第二言語アセスメントのアプローチである。
本研究では,オープンソース LLM である Qwen 2.5 72B を用いて,公開されている S&I Corpus からの応答をゼロショット設定で評価する。
本研究の結果から,本手法はテキスト情報のみに頼って,そのタスクのために微調整されたLLMを上回りませんが,この目的に特化して訓練されたBERTベースモデルよりも優れています。
NLAは、特にミスマッチしたタスク設定で有効であることを証明し、他のデータ型や言語に一般化可能であり、明確に説明可能な、広く適用可能な言語記述子に基礎を置いているため、より高い解釈性を提供する。
関連論文リスト
- Comparing LLM Text Annotation Skills: A Study on Human Rights Violations in Social Media Data [2.812898346527047]
本研究では,ロシア語とウクライナ語におけるソーシャルメディア投稿のゼロショットおよび少数ショットアノテーションに対する大規模言語モデル(LLM)の機能について検討した。
これらのモデルの有効性を評価するため、それらのアノテーションは、人間の二重注釈付きラベルのゴールドスタンダードセットと比較される。
この研究は、各モデルが示すエラーと不一致のユニークなパターンを探求し、その強み、制限、言語間適応性に関する洞察を提供する。
論文 参考訳(メタデータ) (2025-05-15T13:10:47Z) - Synthetic Data Generation for Culturally Nuanced Commonsense Reasoning in Low-Resource Languages [5.376127198656944]
1) LLM支援データセット生成, (2) 機械翻訳, (3) ネイティブ話者による人書きデータから, 文化的に曖昧なストーリー理解データセットを構築するための3つのデータセット作成戦略を比較した。
以上の結果から,LLMによるデータ生成は機械翻訳より優れていることが示唆された。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - Assessing Language Comprehension in Large Language Models Using Construction Grammar [3.0906699069248806]
構築文法(CxG)は、構築(Cxns)として知られる言語要素によって捉えられる意味に関する洞察を提供する。
これらのデータセットは、事前学習データには現れないような例を含むように慎重に構築されているが、人間が理解するのは直感的で容易である。
我々の実験は、LLMが8つのユニークなCxnsを通して伝達する意味についての理解を人間と対比することで、下流の自然言語推論と推論タスクに焦点を当てた。
論文 参考訳(メタデータ) (2025-01-08T18:15:10Z) - Comparing zero-shot self-explanations with human rationales in text classification [5.32539007352208]
我々は,人間に対する妥当性とモデルに対する忠実性に関して,自己説明を評価した。
自己説明は、LRPと比較して人間のアノテーションとより密に一致し、かつ、同等の忠実さを維持していることを示す。
論文 参考訳(メタデータ) (2024-10-04T10:14:12Z) - Toward Informal Language Processing: Knowledge of Slang in Large Language Models [16.42982896928428]
我々は,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築した。
評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。
GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。
論文 参考訳(メタデータ) (2024-04-02T21:50:18Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Exploring Prompting Large Language Models as Explainable Metrics [0.0]
本稿では,Large Language Models (LLMs) を用いた要約タスクの説明可能な評価のためのゼロショットプロンプトベースの戦略を提案する。
自然言語処理(NLP)における評価指標としてのLCMの有望な可能性を示す実験を行った。
得られた最良プロンプトの性能は、テストデータ上のテキスト要約タスクにおける人間の評価と、0.477のKendall相関を達成した。
論文 参考訳(メタデータ) (2023-11-20T06:06:22Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Situated Natural Language Explanations [54.083715161895036]
自然言語の説明(NLE)は、人間に意思決定を説明する最もアクセスしやすいツールである。
既存のNLE研究の視点は、観客を考慮に入れない。
Situated NLEは視点を提供し、説明の生成と評価に関するさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-27T14:14:28Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。