Fugu-MT 論文翻訳(概要): Analyzing Large Language Models for Classroom Discussion Assessment

論文の概要: Analyzing Large Language Models for Classroom Discussion Assessment

arxiv url: http://arxiv.org/abs/2406.08680v1
Date: Wed, 12 Jun 2024 22:43:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 21:57:44.923959
Title: Analyzing Large Language Models for Classroom Discussion Assessment
Title（参考訳）: 授業評定評価のための大規模言語モデルの解析
Authors: Nhat Tran, Benjamin Pierce, Diane Litman, Richard Correnti, Lindsay Clare Matsumura,
Abstract要約: 本研究では,2つの大規模言語モデル(LLM)の評価性能が,タスクの定式化,文脈長,少数例の3つの要因とどのように相互作用するかを検討する。その結果, 上記の3つの要因がLLMの性能に影響を与え, 一貫性と性能に相関があることが示唆された。予測性能, 計算効率, 整合性の観点から, バランスのよいLCMベースの評価手法を推奨する。
参考スコア（独自算出の注目度）: 0.8194411391152481
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Automatically assessing classroom discussion quality is becoming increasingly feasible with the help of new NLP advancements such as large language models (LLMs). In this work, we examine how the assessment performance of 2 LLMs interacts with 3 factors that may affect performance: task formulation, context length, and few-shot examples. We also explore the computational efficiency and predictive consistency of the 2 LLMs. Our results suggest that the 3 aforementioned factors do affect the performance of the tested LLMs and there is a relation between consistency and performance. We recommend a LLM-based assessment approach that has a good balance in terms of predictive performance, computational efficiency, and consistency.
Abstract（参考訳）: 大規模言語モデル(LLM)のような新しいNLPの進歩の助けを借りて、教室での議論の質を自動評価することがますます可能になっている。本研究では,2つのLLMのアセスメント性能が,タスクの定式化,コンテキスト長,少数例の3つの要因とどのように相互作用するかを検討する。また、2つのLLMの計算効率と予測整合性についても検討する。その結果, 上記の3つの要因がLLMの性能に影響を与え, 一貫性と性能に相関があることが示唆された。予測性能, 計算効率, 整合性の観点から, バランスのよいLCMベースの評価手法を推奨する。

関連論文リスト

Slimming Down LLMs Without Losing Their Minds [3.15067317204403]
本稿では,パラメータ効率向上手法(LoRAとQLoRA)に着目し,微調整が大規模言語モデルの性能に及ぼす影響を検証・検証する。我々は,(1)コモンセンス推論(HellaSwag),(2)数学的推論(GSM8K),(3)マルチドメイン知識(MMLU-CS)の3分野にわたるモデル能力を評価する。
論文参考訳（メタデータ） (2025-06-12T16:49:40Z)
Using Large Language Models to Assess Teachers' Pedagogical Content Knowledge [3.2489371952043213]
本研究では,大規模言語モデルが,機械学習(ML)やヒューマンレーダと類似した構成不関連分散(CIV)を導入したかどうかを検討する。一般化線形混合モデル (GLMM) を用いて, 分散成分とレーダレベルのスコアリングパターンを3つのスコアリング源で比較した。その結果、シナリオレベルの分散はタスク間で最小であり、レーダ関連因子はCIVに大きく寄与した。
論文参考訳（メタデータ） (2025-05-25T18:45:53Z)
Ensemble Bayesian Inference: Leveraging Small Language Models to Achieve LLM-level Accuracy in Profile Matching Tasks [0.0]
本研究では,プロプライエタリな大規模言語モデル (LLM) に匹敵する精度を実現するため,小型言語モデル (SLM) アンサンブルの可能性を検討する。本稿では,複数のSLMから判断を合成するためにベイズ推定を適用した新しい手法として,EBI(Ensemble Bayesian Inference)を提案する。
論文参考訳（メタデータ） (2025-04-24T15:55:10Z)
What Makes In-context Learning Effective for Mathematical Reasoning: A Theoretical Analysis [81.15503859645149]
本稿では,大規模言語モデルの推論性能に及ぼす文脈内実演の影響を理論的に解析することを目的とする。本稿では, LMS3 という, 単純で一般化可能な, 低複雑さな実演選択法を提案する。
論文参考訳（メタデータ） (2024-12-11T11:38:11Z)
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。 LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文参考訳（メタデータ） (2024-08-09T20:35:10Z)
Evaluating Linguistic Capabilities of Multimodal LLMs in the Lens of Few-Shot Learning [15.919493497867567]
本研究では,VALSEベンチマークを用いたマルチモーダル大規模言語モデル(MLLM)の性能評価を目的とした。我々は,モデルサイズや事前学習データセットの異なる最先端MLLMの包括的評価を行った。
論文参考訳（メタデータ） (2024-07-17T11:26:47Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Large Language Models as Partners in Student Essay Evaluation [5.479797073162603]
本稿では,3つのシナリオで実際の学生エッセイを用いて,Large Language Models (LLMs) を用いて評価を行った。その結果, LLMと教職員評価の相関関係は, 事前に特定したルーリックとの相互比較シナリオにおいて強い相関性を示した。
論文参考訳（メタデータ） (2024-05-28T22:28:50Z)
Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文参考訳（メタデータ） (2024-05-02T20:42:28Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。