Fugu-MT 論文翻訳(概要): Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment

論文の概要: Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment

arxiv url: http://arxiv.org/abs/2603.16889v1
Date: Sat, 28 Feb 2026 11:08:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:42.363571
Title: Rubric-Guided Fine-tuning of SpeechLLMs for Multi-Aspect, Multi-Rater L2 Reading-Speech Assessment
Title（参考訳）: マルチアスペクト・マルチレータL2読解音声評価のためのルーブリックガイドによる音声LLMの微調整
Authors: Aditya Kamlesh Parikh, Cristian Tejedor-Garcia, Catia Cucchiarini, Helmer Strik,
Abstract要約: 本稿では,多視点評価基準を明示的に符号化したルーリック誘導推論フレームワークを提案する。我々は、解釈可能な信頼区間に対する共形キャリブレーションによって支持される不確実性校正回帰手法を開発する。以上の結果から,ルーブリック誘導型不確実性校正推論は,信頼性と説明可能なSpeechLLMに基づく音声評価への原則的道筋を提供することが示された。
参考スコア（独自算出の注目度）: 8.300738063140129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reliable and interpretable automated assessment of second-language (L2) speech remains a central challenge, as large speech-language models (SpeechLLMs) often struggle to align with the nuanced variability of human raters. To address this, we introduce a rubric-guided reasoning framework that explicitly encodes multi-aspect human assessment criteria: accuracy, fluency, and prosody, while calibrating model uncertainty to capture natural rating variability. We fine-tune the Qwen2-Audio-7B-Instruct model using multi-rater human judgments and develop an uncertainty-calibrated regression approach supported by conformal calibration for interpretable confidence intervals. Our Gaussian uncertainty modeling and conformal calibration approach achieves the strongest alignment with human ratings, outperforming regression and classification baselines. The model reliably assesses fluency and prosody while highlighting the inherent difficulty of assessing accuracy. Together, these results demonstrate that rubric-guided, uncertainty-calibrated reasoning offers a principled path toward trustworthy and explainable SpeechLLM-based speech assessment.
Abstract（参考訳）: 第二言語モデル(SpeechLLMs)は、人間の発声者のニュアンスな変動に合わせるのにしばしば苦労するので、第二言語(L2)音声の信頼性と解釈可能な自動評価は依然として中心的な課題である。そこで本研究では,多視点評価基準である精度,流布度,韻律を明示的に符号化するルーリック誘導推論フレームワークを導入するとともに,モデルの不確実性を校正し,自然評価の変動を捉える。 Qwen2-Audio-7B-インストラクトモデルをマルチレータの人的判断を用いて微調整し、解釈可能な信頼区間の共形校正によって支持される不確実性校正回帰手法を開発する。我々のガウス的不確実性モデリングと共形キャリブレーション手法は、人間の評価と最強の整合性を達成する。このモデルは、精度を評価することの難しさを強調しながら、流感と韻律を確実に評価する。これらの結果から, ルーリック誘導型不確実性校正推論は, 信頼性と説明可能なSpeechLLMに基づく音声評価への原則的経路を提供することが示された。

関連論文リスト

On Calibration of Large Language Models: From Response To Capability [66.59139960234326]
大規模言語モデル(LLM)は汎用的な問題解決手段として広くデプロイされている。本稿では,クエリ上でモデルが期待する精度を目標とするキャリブレーションを提案する。我々の結果は、キャパシティ校正された信頼度がpass@$k$予測と推論予算割り当てを改善することを示している。
論文参考訳（メタデータ） (2026-02-14T01:07:45Z)
Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文参考訳（メタデータ） (2025-12-21T05:22:04Z)
Measuring Language Model Hallucinations Through Distributional Correctness [7.106986689736826]
この問題を解決するために,新しい評価基準である分布補正スコア(DCS)を導入した。 DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を区別し、解釈可能なデフォルト範囲でスコアを提供する。 DCSは、推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供する。
論文参考訳（メタデータ） (2025-10-05T17:50:42Z)
Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation [20.726685669562496]
幻覚は、大きな言語モデル(LLM)の信頼性を損なう一般的な問題である。近年の研究では、LLMの予測的不確実性によって生じる幻覚のサブセット、すなわち confabulations が特定されている。衝突を検出するため,自然言語生成における予測不確かさを推定する様々な手法が開発されている。
論文参考訳（メタデータ） (2025-10-02T17:54:09Z)
Human-Alignment and Calibration of Inference-Time Uncertainty in Large Language Models [0.0]
本研究では,人間のグループレベルの不確実性と従来のモデルキャリブレーションの両概念との密接な一致を判断するために,推論時不確実性尺度の収集を評価する。その結果,ヒトの回答嗜好に一致していないにもかかわらず,人間の不確実性に強い対応を示す尺度が多数存在することが判明した。
論文参考訳（メタデータ） (2025-08-11T17:22:45Z)
T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文参考訳（メタデータ） (2025-05-23T13:44:59Z)
Calibrated Large Language Models for Binary Question Answering [49.1574468325115]
よく校正されたモデルは、その予測が正しい可能性を正確に反映する確率を生成するべきである。本稿では、帰納的Venn-Abers予測器(IVAP)を用いて、バイナリラベルに対応する出力トークンに関連する確率をキャリブレーションする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T09:31:03Z)
Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。与えられた入力に応答する際の不確実性を正確に定量化することは重要である。我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文参考訳（メタデータ） (2024-04-04T02:31:05Z)
Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文参考訳（メタデータ） (2022-02-21T10:36:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。