論文の概要: Automated Multiple Mini Interview (MMI) Scoring
- arxiv url: http://arxiv.org/abs/2602.02360v1
- Date: Mon, 02 Feb 2026 17:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.321914
- Title: Automated Multiple Mini Interview (MMI) Scoring
- Title(参考訳): MMI(Automated Multiple Mini Interview)スコーリング
- Authors: Ryan Huynh, Frank Guerin, Alison Callwood,
- Abstract要約: 現状の理性に基づく微調整手法は,Mini-Interviewsの抽象的,文脈依存的な性質に苦慮していることを示す。
本稿では,評価プロセスを書き起こし改良と基準固有スコアに分解するマルチエージェントプロンプトフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.277507079014855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Assessing soft skills such as empathy, ethical judgment, and communication is essential in competitive selection processes, yet human scoring is often inconsistent and biased. While Large Language Models (LLMs) have improved Automated Essay Scoring (AES), we show that state-of-the-art rationale-based fine-tuning methods struggle with the abstract, context-dependent nature of Multiple Mini-Interviews (MMIs), missing the implicit signals embedded in candidate narratives. We introduce a multi-agent prompting framework that breaks down the evaluation process into transcript refinement and criterion-specific scoring. Using 3-shot in-context learning with a large instruct-tuned model, our approach outperforms specialised fine-tuned baselines (Avg QWK 0.62 vs 0.32) and achieves reliability comparable to human experts. We further demonstrate the generalisability of our framework on the ASAP benchmark, where it rivals domain-specific state-of-the-art models without additional training. These findings suggest that for complex, subjective reasoning tasks, structured prompt engineering may offer a scalable alternative to data-intensive fine-tuning, altering how LLMs can be applied to automated assessment.
- Abstract(参考訳): 共感、倫理的判断、コミュニケーションなどのソフトスキルを評価することは競争的な選択プロセスにおいて不可欠であるが、人間のスコアはしばしば矛盾し、偏りがある。
LLM(Large Language Models)は,AES(Automated Essay Scoring)を改良したものの,MMI(Multi Mini-Interviews)の抽象的・文脈依存的な性質に対処する最先端の理性に基づく微調整手法では,予測された物語に埋め込まれた暗黙的な信号を欠いていることを示す。
本稿では,評価プロセスを書き起こし改良と基準固有スコアに分解するマルチエージェントプロンプトフレームワークを提案する。
提案手法は,大規模なインストラクトチューニングモデルを用いた3ショットインコンテキスト学習を用いて,微調整ベースライン(Avg QWK 0.62 vs 0.32)の精度を向上し,人間の専門家に匹敵する信頼性を実現する。
AsAPベンチマークでは、追加のトレーニングなしでドメイン固有の最先端モデルに匹敵するフレームワークの汎用性を実証する。
これらの結果は、複雑な主観的推論タスクに対して、構造化されたプロンプトエンジニアリングは、データ集約的な微調整に代わるスケーラブルな代替手段を提供する可能性があることを示唆している。
関連論文リスト
- Automated Benchmark Generation from Domain Guidelines Informed by Bloom's Taxonomy [28.293009223912602]
オープンエンド質問応答(英語: Open-ended Question answering, QA)は、モデルが事実的リコールを超えた文脈的推論を行う能力を評価する。
この課題は、知識が手続き的であり、専門的な判断が下されている、実践ベースの領域で特に深刻である。
ブルームの分類学から得られた専門家認可ガイドラインから自動ベンチマーク生成のためのフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-28T05:01:11Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition [27.312190686305588]
大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
論文 参考訳(メタデータ) (2025-09-26T05:45:14Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - Leveraging LLMs for Dialogue Quality Measurement [27.046917937460798]
大規模言語モデル(LLM)は、NLPタスク全体で堅牢なゼロショットと少数ショットの機能を提供する。
モデルサイズ,文脈内例,選択手法などの操作要因を考察し,CoT推論とラベル抽出手法について検討する。
この結果から,適切な微調整と十分な推論能力を有するLCMを自動対話評価に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T06:19:47Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。