論文の概要: A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2411.00045v1
- Date: Tue, 29 Oct 2024 19:32:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:50:34.393092
- Title: A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models
- Title(参考訳): 大規模言語モデルのためのプロフェッショナル・コンピテンシー・ベンチマーク開発のための心理学的アプローチ
- Authors: Elena Kardanova, Alina Ivanova, Ksenia Tarasova, Taras Pashchenko, Aleksei Tikhoniuk, Elen Yusupova, Anatoly Kasprzhak, Yaroslav Kuzminov, Ekaterina Kruchinskaia, Irina Brun,
- Abstract要約: 本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The era of large language models (LLM) raises questions not only about how to train models, but also about how to evaluate them. Despite numerous existing benchmarks, insufficient attention is often given to creating assessments that test LLMs in a valid and reliable manner. To address this challenge, we accommodate the Evidence-centered design (ECD) methodology and propose a comprehensive approach to benchmark development based on rigorous psychometric principles. In this paper, we have made the first attempt to illustrate this approach by creating a new benchmark in the field of pedagogy and education, highlighting the limitations of existing benchmark development approach and taking into account the development of LLMs. We conclude that a new approach to benchmarking is required to match the growing complexity of AI applications in the educational context. We construct a novel benchmark guided by the Bloom's taxonomy and rigorously designed by a consortium of education experts trained in test development. Thus the current benchmark provides an academically robust and practical assessment tool tailored for LLMs, rather than human participants. Tested empirically on the GPT model in the Russian language, it evaluates model performance across varied task complexities, revealing critical gaps in current LLM capabilities. Our results indicate that while generative AI tools hold significant promise for education - potentially supporting tasks such as personalized tutoring, real-time feedback, and multilingual learning - their reliability as autonomous teachers' assistants right now remain rather limited, particularly in tasks requiring deeper cognitive engagement.
- Abstract(参考訳): 大規模言語モデル(LLM)の時代は、モデルのトレーニング方法だけでなく、それらの評価方法にも疑問を投げかける。
多くの既存のベンチマークにもかかわらず、LLMを有効かつ信頼性の高い方法でテストする評価を作成するには、不十分な注意が払われることが多い。
この課題に対処するため、Evidence-centered Design (ECD) 方法論を適応し、厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
本稿では,教育と教育の分野での新しいベンチマークを作成し,既存のベンチマーク開発アプローチの限界を強調し,LLMの開発を考慮に入れた上で,このアプローチを実証する試みを初めて行った。
我々は、教育の文脈におけるAIアプリケーションの複雑さの増大に対応するために、ベンチマークに対する新しいアプローチが必要であると結論付けている。
我々はブルームの分類学が指導する新しいベンチマークを構築し、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計されている。
したがって、現在のベンチマークは、人間の参加者ではなく、LLMに適した学術的に堅牢で実践的な評価ツールを提供する。
ロシア語のGPTモデルで実証実験を行い、様々なタスク複雑度にわたるモデル性能を評価し、現在のLLM能力に重大なギャップがあることを明らかにした。
我々の結果は、生成型AIツールは教育にとって大きな可能性を秘めていることを示している - パーソナライズされたチューター、リアルタイムフィードバック、多言語学習といったタスクをサポートする可能性がある - 自律的な教師のアシスタントとしての信頼性は、特に深い認知的エンゲージメントを必要とするタスクにおいて、かなり制限されていることを示唆している。
関連論文リスト
- An Exploration of Higher Education Course Evaluation by Large Language Models [4.943165921136573]
人工知能(AI)における大規模言語モデル(LLM)は、コース評価プロセスを強化するための新しい道筋を示す。
本研究は,中国大大学の100コースにわたる厳密な実験を行い,複数の視点から自動コース評価へのLLMの適用について検討した。
論文 参考訳(メタデータ) (2024-11-03T20:43:52Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Creating Large Language Model Resistant Exams: Guidelines and Strategies [0.0]
大規模言語モデル(LLM)は、学術的完全性への潜在的な影響について懸念を提起している。
本稿では,LLMの試験成績と評価への影響について考察する。
本稿では,コンテンツモデレーション,意図的不正確性,モデルの知識ベースを越えた現実シナリオ,効果的な気晴らしオプション,ソフトスキルの評価,非テキスト情報の導入など,LCM耐性試験を作成するためのガイドラインを提案する。
論文 参考訳(メタデータ) (2023-04-18T18:01:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。