論文の概要: Using LLMs to identify features of personal and professional skills in an open-response situational judgment test
- arxiv url: http://arxiv.org/abs/2507.13881v1
- Date: Fri, 18 Jul 2025 12:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.290059
- Title: Using LLMs to identify features of personal and professional skills in an open-response situational judgment test
- Title(参考訳): オープン応答型状況判断テストにおけるLLMを用いた個人的・専門的スキルの特徴の同定
- Authors: Cole Walsh, Rodica Ivan, Muhammad Zafar Iqbal, Colleen Robb,
- Abstract要約: 学術プログラムは、個人的および専門的なスキルの重要性を認識している。
この需要の増加に伴い、これらのスキルを測り、評価し、開発するためのスケーラブルなシステムが求められます。
本研究は,個人的および専門的スキルの自動スコアリングにおける今後の発展の基盤となるものである。
- 参考スコア(独自算出の注目度): 0.92246583941469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Academic programs are increasingly recognizing the importance of personal and professional skills and their critical role alongside technical expertise in preparing students for future success in diverse career paths. With this growing demand comes the need for scalable systems to measure, evaluate, and develop these skills. Situational Judgment Tests (SJTs) offer one potential avenue for measuring these skills in a standardized and reliable way, but open-response SJTs have traditionally relied on trained human raters for evaluation, presenting operational challenges to delivering SJTs at scale. Past attempts at developing NLP-based scoring systems for SJTs have fallen short due to issues with construct validity of these systems. In this article, we explore a novel approach to extracting construct-relevant features from SJT responses using large language models (LLMs). We use the Casper SJT to demonstrate the efficacy of this approach. This study sets the foundation for future developments in automated scoring for personal and professional skills.
- Abstract(参考訳): アカデミック・プログラムは、個人的および専門的なスキルの重要性と、様々なキャリアパスにおける将来の成功のために学生を準備する技術的な専門知識とを兼ね備えた重要な役割を、ますます認識している。
この需要の増加に伴い、これらのスキルを測り、評価し、開発するためのスケーラブルなシステムが求められます。
状況判断テスト(SJT)は、これらのスキルを標準化され信頼性の高い方法で測定するための1つの潜在的手段を提供するが、オープンレスポンスのSJTは伝統的に、評価のために訓練された人間のレーダに頼り、大規模にSJTを届けるための運用上の課題を提示してきた。
SJT のための NLP ベースのスコアリングシステムの開発の試みは,これらのシステムの構成妥当性の問題により失敗に終わっている。
本稿では,大規模言語モデル(LLM)を用いて,SJT応答から構築関連特徴を抽出する手法を提案する。
我々は,Casper SJTを用いて,このアプローチの有効性を実証する。
本研究は、個人的・専門的なスキルの自動スコアリングにおける、今後の発展の基盤となるものである。
関連論文リスト
- Addressing Bias in LLMs: Strategies and Application to Fair AI-based Recruitment [49.81946749379338]
この研究は、トランスフォーマーベースのシステムの能力を分析して、データに存在する人口統計バイアスを学習する。
最終ツールにおける偏りを緩和する手段として,学習パイプラインからの性別情報を削減するためのプライバシー向上フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T15:29:43Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [19.4760649326684]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。
MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。
既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文 参考訳(メタデータ) (2025-05-16T11:01:01Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。
我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。
我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-29T19:32:43Z) - Comuniqa : Exploring Large Language Models for improving speaking skills [2.8227892155844088]
本稿では,Large Language Models (LLMs) の英語能力向上の可能性について検討する。
人工知能(AI)の最近の進歩は、限界を克服する有望なソリューションを提供する。
我々は,英語のスキル向上を目的とした,新しいLLMベースのシステムであるComuniqaを提案する。
論文 参考訳(メタデータ) (2024-01-28T07:37:33Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - A Domain-Agnostic Approach for Characterization of Lifelong Learning
Systems [128.63953314853327]
「生涯学習」システムには,1)継続的学習,2)伝達と適応,3)拡張性があります。
この一連のメトリクスは、様々な複雑な生涯学習システムの開発に役立てることができることを示す。
論文 参考訳(メタデータ) (2023-01-18T21:58:54Z) - Measuring Progress on Scalable Oversight for Large Language Models [19.705153174673576]
我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-04T17:03:49Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。