論文の概要: LASER: An LLM-based ASR Scoring and Evaluation Rubric
- arxiv url: http://arxiv.org/abs/2510.07437v1
- Date: Wed, 08 Oct 2025 18:37:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.668441
- Title: LASER: An LLM-based ASR Scoring and Evaluation Rubric
- Title(参考訳): レーザー:LLMベースのASRスコーリングと評価用潤滑剤
- Authors: Amruta Parulekar, Preethi Jyothi,
- Abstract要約: 本稿では,LLMのテキスト内学習能力を活用したLLMに基づくスコアリング・レーザーを提案する。
Gemini 2.5 Proを用いたヒンディー語ルーリックスコアは、人間のアノテーションと94%という非常に高い相関スコアを得た。
Llama 3は、参照およびASR予測から導かれるワードペア例に基づいて微調整され、どの種類のペナルティを89%近い精度で適用すべきかを予測することができる。
- 参考スコア(独自算出の注目度): 28.789482863420442
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard ASR evaluation metrics like Word Error Rate (WER) tend to unfairly penalize morphological and syntactic nuances that do not significantly alter sentence semantics. We introduce an LLM-based scoring rubric LASER that leverages state-of-the-art LLMs' in-context learning abilities to learn from prompts with detailed examples. Hindi LASER scores using Gemini 2.5 Pro achieved a very high correlation score of 94% with human annotations. Hindi examples in the prompt were also effective in analyzing errors in other Indian languages such as Marathi, Kannada and Malayalam. We also demonstrate how a smaller LLM like Llama 3 can be finetuned on word-pair examples derived from reference and ASR predictions to predict what kind of penalty should be applied with close to 89% accuracy.
- Abstract(参考訳): WER(Word Error Rate)のような標準のASR評価指標は、文の意味論を著しく変えない形態的および構文的ニュアンスを不当に罰する傾向がある。
提案手法では,LLMのテキスト内学習能力を活用して,プロンプトから詳細な例で学習する,LLMに基づくスコアリングルーブリックレーザーを提案する。
Gemini 2.5 Proを用いたHindi LASERスコアは、人間のアノテーションと94%という非常に高い相関スコアを得た。
このプロンプトのヒンディー語例は、マラタイ語、カンナダ語、マラヤラム語などの他のインドの言語での誤りを分析するのにも有効であった。
また,Llama 3 のような小さな LLM を参照と ASR 予測から抽出したワードペアの例で微調整して,どの種類のペナルティを89% 近い精度で適用すべきかを予測できることを示す。
関連論文リスト
- Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses [4.061135251278187]
本研究は, 子どもの筆記作品の採点作業において, 人的専門家の難易度は, LLMの成績に統計的に影響を及ぼさないことを示した。
具体的には,人間の得点者によって測定される最も簡単なスコアリングタスクが,LSMにとって最も難しいものであることを示す。
発見者は、自己回帰モデルの既知の統計的欠点を予想するシステム設計を主張する。
論文 参考訳(メタデータ) (2026-03-05T05:11:08Z) - Blind to the Human Touch: Overlap Bias in LLM-Based Summary Evaluation [89.52571224447111]
大規模言語モデル(LLM)の判断は、要約のようなタスクのために、伝統的なアルゴリズムベースのメトリクスと併用されることが多い。
要約領域における人書き応答と重なる関数としてLLM判定バイアス分析を提案する。
論文 参考訳(メタデータ) (2026-02-07T19:39:28Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation [66.84286617519258]
大規模言語モデルは、データアノテーションやテキスト分析といった労働集約的なタスクの自動化を可能にすることで、社会科学の研究を変革している。
このような変異は、系統的なバイアスやランダムなエラーを導入し、下流の分析に伝播し、タイプI(偽陽性)、タイプII(偽陰性)、タイプS(重み付け効果)、タイプM(誇張効果)のエラーを引き起こす。
意図的なLSMハッキングは驚くほど単純であることがわかった。21の社会科学研究から37のデータアノテーションタスクを複製することで、ほんのわずかのプロンプトの言い回しで、事実上何であれ統計的に重要なものとして表現できることがわかりました。
論文 参考訳(メタデータ) (2025-09-10T17:58:53Z) - Flaw or Artifact? Rethinking Prompt Sensitivity in Evaluating LLMs [34.51801559719707]
ハイプロンプト感度は、大規模言語モデルのコアリミットとして広く受け入れられている。
広く報告されているハイプロンプト感度は、本当にLLMの本質的な弱点なのか、それとも、主に評価プロセスの成果物なのか?
即発感度の多くは,ログライクなスコアリングや厳密な回答マッチングなど,評価手法に起因していることがわかった。
論文 参考訳(メタデータ) (2025-09-01T21:38:28Z) - Can Reasoning Help Large Language Models Capture Human Annotator Disagreement? [84.32752330104775]
ヒトのアノテーションの変化(つまり不一致)は、NLPでは一般的である。
異なる推論条件が大言語モデルの不一致モデルに与える影響を評価する。
意外なことに、RLVRスタイルの推論は不一致モデリングにおいて性能を低下させる。
論文 参考訳(メタデータ) (2025-06-24T09:49:26Z) - REPA: Russian Error Types Annotation for Evaluating Text Generation and Judgment Capabilities [45.00513157371274]
我々は、ロシア語で大言語モデルを審査員として使用する枠組みを評価した。
人選好に基づく3つの評価システムを用いて, エラータイプ別に6つの生成LDMをランク付けする。
以上の結果から,LLM判定におけるロシア語と英語の差が顕著であった。
論文 参考訳(メタデータ) (2025-03-17T12:15:16Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。