論文の概要: mucAI at BAREC Shared Task 2025: Towards Uncertainty Aware Arabic Readability Assessment
- arxiv url: http://arxiv.org/abs/2509.15485v1
- Date: Thu, 18 Sep 2025 23:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.937134
- Title: mucAI at BAREC Shared Task 2025: Towards Uncertainty Aware Arabic Readability Assessment
- Title(参考訳): MucAI at BAREC Shared Task 2025: Towards Uncertainty Aware Arabic Readability Assessment (英語)
- Authors: Ahmed Abdou,
- Abstract要約: 本稿では,BAREC 2025共有タスクにおけるアラビア可読性分類のモデル化手法を提案する。
提案手法は共形予測を適用してカバレッジ保証付き予測セットを生成し,次に共形集合上のソフトマックス非正規化確率を用いて重み付き平均を計算する。
この不確実性を認識した復号化により, 準重み付きカッパ (QWK) が向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a simple, model-agnostic post-processing technique for fine-grained Arabic readability classification in the BAREC 2025 Shared Task (19 ordinal levels). Our method applies conformal prediction to generate prediction sets with coverage guarantees, then computes weighted averages using softmax-renormalized probabilities over the conformal sets. This uncertainty-aware decoding improves Quadratic Weighted Kappa (QWK) by reducing high-penalty misclassifications to nearer levels. Our approach shows consistent QWK improvements of 1-3 points across different base models. In the strict track, our submission achieves QWK scores of 84.9\%(test) and 85.7\% (blind test) for sentence level, and 73.3\% for document level. For Arabic educational assessment, this enables human reviewers to focus on a handful of plausible levels, combining statistical guarantees with practical usability.
- Abstract(参考訳): 本稿では,BAREC 2025 Shared Task (19 Ordinal Level) におけるアラビア可読性分類のための,単純でモデルに依存しない後処理手法を提案する。
提案手法は共形予測を適用してカバレッジ保証付き予測セットを生成し,次に共形集合上のソフトマックス非正規化確率を用いて重み付き平均を計算する。
この不確実性を認識した復号化により, 準重み付きカッパ (QWK) が向上する。
提案手法は, 異なるベースモデルに対して, 1-3点の連続的なQWK改善を示す。
厳格なトラックでは、文書レベルでのQWKスコアは84.9\%(テスト)と85.7\%(盲検)、文書レベルでは73.3\%となる。
アラビア語の教育評価では、人間のレビュアーは、統計的保証と実用的なユーザビリティを組み合わせることで、いくつかの妥当なレベルに集中することができる。
関連論文リスト
- Beyond the Score: Uncertainty-Calibrated LLMs for Automated Essay Assessment [11.525382140783043]
この研究は、エッセイ評価のための共形予測とUAccを組み合わせたものである。
信頼性は、正確かつ簡潔なモデルに報いる不確実性を認識した精度であるUAccで評価される。
オープンソースで中規模のLLMは、既に教師・イン・ザ・ループのAESをサポートしています。
論文 参考訳(メタデータ) (2025-09-19T12:28:50Z) - !MSA at BAREC Shared Task 2025: Ensembling Arabic Transformers for Readability Assessment [0.0]
アラビア細粒度読解性評価におけるBAREC 2025共有タスクのMSA当選システムを提案する。
我々のアプローチは、4つの相補的なトランスモデルの信頼度重み付けアンサンブルである。
システムは、文レベルでは87.5パーセントのQWK、文書レベルでは87.4%に達した。
論文 参考訳(メタデータ) (2025-09-12T08:08:45Z) - Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - RICA2: Rubric-Informed, Calibrated Assessment of Actions [8.641411594566714]
動作品質評価(AQA)の予測不確かさを考慮に入れた深層確率モデルRICA2を提案する。
本手法はFineDiving, MTL-AQA, JIGSAWSなどの公開ベンチマークにおいて, スコア予測と不確実性校正性能に優れた手法であることを示す。
論文 参考訳(メタデータ) (2024-08-04T20:35:33Z) - TCE at Qur'an QA 2023 Shared Task: Low Resource Enhanced
Transformer-based Ensemble Approach for Qur'anic QA [0.0]
我々は,Qur'an QA 2023共有タスクA,Bに取り組むためのアプローチを提案する。
低リソースのトレーニングデータの課題に対処するため、我々は投票アンサンブルとともにトランスファーラーニングに頼っている。
我々は、さまざまなアーキテクチャと学習メカニズムを、アラビア語で事前訓練されたトランスフォーマーベースのモデルに採用しています。
論文 参考訳(メタデータ) (2024-01-23T19:32:54Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Using Sampling to Estimate and Improve Performance of Automated Scoring
Systems with Guarantees [63.62448343531963]
本稿では,既存のパラダイムを組み合わせることで,人間が知能的に収集する応答をサンプリングする手法を提案する。
比較的少ない予算で精度(平均19.80%)と二次重み付きカッパ(平均25.60%)の顕著な増加を観察した。
論文 参考訳(メタデータ) (2021-11-17T05:00:51Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。