論文の概要: Validity Verification of the New TOEFL Writing Task Based on Classical Test Theory
- arxiv url: http://arxiv.org/abs/2509.05347v1
- Date: Tue, 02 Sep 2025 14:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.44762
- Title: Validity Verification of the New TOEFL Writing Task Based on Classical Test Theory
- Title(参考訳): 古典的テスト理論に基づくTOEFL書記タスクの妥当性検証
- Authors: Yinyu Zhang,
- Abstract要約: iBTは、受験者が学術談話に参加する能力を評価するための学術討論タスク(ADT)を導入した。
ADTの妥当性と公正性に関する研究は、特に中国学生などの文化的・言語学的に多様である。
本研究では, ADT と CET-6 の書き込みと翻訳のサブスコアとの間には強い相関関係が認められた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The TOEFL iBT has introduced the Academic Discussion Task (ADT) to assess test-takers' ability to engage in academic discourse, reflecting the growing emphasis on interactive communication skills in higher education. However, research on the ADT's validity and fairness particularly for culturally and linguistically diverse groups, such as Chinese students, remains limited. This study addresses this gap by employing Classical Test Theory (CTT) to evaluate the psychometric properties of the ADT among Chinese university students. This study finds a robust correlation between the ADT and the CET-6 writing and translation subscores. In addition, there is a high level of expert agreement regarding the construct validity evidence and the appropriateness of the scoring rubric. Furthermore, the results indicate that gender differences in validity indices are minimal. Taken together, these results suggest that the ADT is a valid measure for Chinese test-takers without gender discrimination. However, it is recommended that the cultural sensitivity of the scoring rubric be further refined and that the CET-6 subscores for writing be retained for predictive purposes, in order to better accommodate the needs of diverse test-taker populations. By addressing these issues, this study contributes to the broader discourse on fairness and validity in high-stakes language assessments.
- Abstract(参考訳): TOEFL iBTは、高等教育における対話的コミュニケーションスキルの強調を反映して、受験者が学術談話に参加する能力を評価するための学術討論タスク(ADT)を導入した。
しかし、ADTの妥当性と公正性についての研究は、特に文化学的・言語学的に多様なグループ(例えば中国人学生)に限られている。
本研究では,中国の大学生におけるADTの心理測定特性を評価するために,古典的テスト理論(CTT)を用いて,このギャップを解消する。
本研究では, ADT と CET-6 の書き込みと翻訳のサブスコアとの間には強い相関関係が認められた。
また, 建設証拠とスコアリングルーブリックの妥当性について, 高いレベルの専門家合意が結ばれている。
さらに,妥当性指標の性別差は最小限であることが示唆された。
これらの結果から,ADTは性差別のない中国の受験者にとって有効な尺度であることが示唆された。
しかし, 多様なテストテイカー人口の需要に応えるため, スコアリングルーブリックの文化的感受性をさらに高め, CET-6サブスコアを予測目的で保持することが推奨されている。
これらの課題に対処することにより,ハイテイク言語評価における公平性と妥当性に関する幅広い議論に寄与する。
関連論文リスト
- Exploring AI-Enabled Test Practice, Affect, and Test Outcomes in Language Assessment [0.0]
生成AI駆動の自動アイテム生成(AIG)は、大規模なアイテムバンクの作成と複数のプラクティステストを拡張する。
本研究は,AIG対応の実践試験をハイテイク言語アセスメントに活用した最初の大規模研究である。
論文 参考訳(メタデータ) (2025-08-23T18:41:30Z) - S-DAT: A Multilingual, GenAI-Driven Framework for Automated Divergent Thinking Assessment [23.509294903995745]
本稿では、分散思考の自動評価のためのスケーラブルな多言語フレームワークであるS-DAT(Synthetic-Divergent Association Task)を紹介する。
我々は、英語、スペイン語、ドイツ語、ロシア語、ヒンディー語、日本語(漢字、平仮名、カタカナ)を含む11言語にわたるS-DATを評価する。
従来の DAT アプローチとは異なり、S-DAT は他の DT 測度と収束妥当性を示し、収束思考と正判別妥当性を示す。
論文 参考訳(メタデータ) (2025-05-14T02:08:40Z) - NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - Prefix Text as a Yarn: Eliciting Non-English Alignment in Foundation Language Model [50.339632513018934]
教師付き微調整(SFT)は、基礎大言語モデル(LLM)の出力を特定の嗜好に合わせるための単純なアプローチである。
我々はこの仮説を言語間タスクの範囲内で批判的に検証する。
タスク関連トークンを最小化するPreTTYという新しいトレーニングフリーアライメント手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T17:19:36Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - The competent Computational Thinking test (cCTt): a valid, reliable and gender-fair test for longitudinal CT studies in grades 3-6 [0.06282171844772422]
本研究では,2709人の生徒のデータを用いて,3年生から6年生(年齢7~11歳)までの学習を確実に評価できるかどうかを検討した。
以上の結果から,cCTtは学年3-6では有効で信頼性が高く,ジェンダーフェアであり,より複雑な項目は学年5-6では有益であることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T03:29:04Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。