論文の概要: To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise
- arxiv url: http://arxiv.org/abs/2603.07330v1
- Date: Sat, 07 Mar 2026 20:22:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.298376
- Title: To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise
- Title(参考訳): 予測・予測しないか : 騒音の有無による確実な不確実性推定に向けて
- Authors: Nouran Khallaf, Serge Sharoff,
- Abstract要約: 本研究では,多言語テキスト分類における不確実性推定(UE)手法の役割について,雑音条件および非話題条件下で検討した。
我々は、より堅牢な予測を行うための貢献を評価するために、様々な指標に対してUE手法の幅を評価した。
- 参考スコア(独自算出の注目度): 1.9746060146273674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This study examines the role of uncertainty estimation (UE) methods in multilingual text classification under noisy and non-topical conditions. Using a complex-vs-simple sentence classification task across several languages, we evaluate a range of UE techniques against a range of metrics to assess their contribution to making more robust predictions. Results indicate that while methods relying on softmax outputs remain competitive in high-resource in-domain settings, their reliability declines in low-resource or domain-shift scenarios. In contrast, Monte Carlo dropout approaches demonstrate consistently strong performance across all languages, offering more robust calibration, stable decision thresholds, and greater discriminative power even under adverse conditions. We further demonstrate the positive impact of UE on non-topical classification: abstaining from predicting the 10\% most uncertain instances increases the macro F1 score from 0.81 to 0.85 in the Readme task. By integrating UE with trustworthiness metrics, this study provides actionable insights for developing more reliable NLP systems in real-world multilingual environments. See https://github.com/Nouran-Khallaf/To-Predict-or-Not-to-Predict
- Abstract(参考訳): 本研究では,多言語テキスト分類における不確実性推定(UE)手法の役割について,雑音条件および非話題条件下で検討した。
複数の言語にまたがる複雑なvs-simple文分類タスクを用いて、より堅牢な予測を行うためのコントリビューションを評価するために、様々な指標に対してUE手法の幅を評価した。
その結果,ソフトマックス出力に依存する手法は高リソースのドメイン内設定では競合するが,低リソースやドメインシフトのシナリオでは信頼性が低下することが示唆された。
対照的に、モンテカルロのドロップアウトアプローチは、より堅牢なキャリブレーション、安定した決定しきい値、さらに悪条件下においてもより差別的なパワーを提供する、全ての言語で一貫して強いパフォーマンスを示す。
また,非トピック分類におけるUEの肯定的な影響も示している。最も不確実な場合の10\%の予測を控えることで,ReadmeタスクのマクロF1スコアが0.81から0.85に上昇する。
本研究は,UEと信頼性指標を組み合わせることにより,実世界の多言語環境において,より信頼性の高いNLPシステムの開発に有効な知見を提供する。
https://github.com/Nouran-Khallaf/To-Predict-or-Not-to-Predict
関連論文リスト
- Investigating the Multilingual Calibration Effects of Language Model Instruction-Tuning [58.355275813623685]
本研究は,多言語設定における大規模言語モデル(LLM)の校正における重要なギャップについて考察する。
低リソース言語であっても、高リソース言語SFTデータセットのインストラクションチューニング後にモデルの信頼性が著しく向上する可能性がある。
しかし、精度の改善は限界的あるいは存在しないものであり、多言語言語における標準SFTの重大な欠点を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-04T04:29:12Z) - Addressing Pitfalls in the Evaluation of Uncertainty Estimation Methods for Natural Language Generation [20.726685669562496]
幻覚は、大きな言語モデル(LLM)の信頼性を損なう一般的な問題である。
近年の研究では、LLMの予測的不確実性によって生じる幻覚のサブセット、すなわち confabulations が特定されている。
衝突を検出するため,自然言語生成における予測不確かさを推定する様々な手法が開発されている。
論文 参考訳(メタデータ) (2025-10-02T17:54:09Z) - Can Large Language Models Express Uncertainty Like Human? [71.27418419522884]
我々は,人間に注釈を付けた信頼スコアを持つヘッジ式の最初の多種多様な大規模データセットをリリースする。
現代大言語モデルにまたがる言語信頼に関する最初の体系的研究を行う。
論文 参考訳(メタデータ) (2025-09-29T02:34:30Z) - Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method [108.56493934296687]
本研究では,乱数から発散する概念に触発された偏差に基づくキャリブレーション手法を導入し,プリトレーニングデータ検出のためのトークン確率のキャリブレーションを行う。
我々は,中国語テキスト上でのLLMの検出手法の性能を評価するために,中国語のベンチマークであるPatentMIAを開発した。
論文 参考訳(メタデータ) (2024-09-23T07:55:35Z) - Efficient Nearest Neighbor based Uncertainty Estimation for Natural Language Processing Tasks [26.336947440529713]
モデル予測の信頼性は、現実世界の安全クリティカルなアプリケーションには不可欠である。
ディープニューラルネットワークは、誤校正などの不確実性推定の問題に悩まされることが多い。
我々は、近隣住民からの距離だけでなく、近隣住民のラベルの比率を用いて、最も近い隣人不確実性推定(k$NN-UE)を提案する。
論文 参考訳(メタデータ) (2024-07-02T10:33:31Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - MlingConf: A Comprehensive Study of Multilingual Confidence Estimation on Large Language Models [36.33453112932689]
本稿では,多言語信頼度推定(MlingConf)の大規模言語モデル(LLM)に関する包括的調査を紹介する。
このベンチマークは、LAタスクのための4つの厳密にチェックされ、人間によって評価された高品質な多言語データセットと、言語の特定の社会的、文化的、地理的コンテキストに合わせて調整されたLSタスクからなる。
LAのタスクでは、英語が他の言語よりも言語的優位性を示す一方で、LSタスクでは、質問関連言語を用いてLSMを誘導し、多言語的信頼度推定において言語的優位性を改善することが示されている。
論文 参考訳(メタデータ) (2024-02-21T08:20:06Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Boosting Cross-Lingual Transfer via Self-Learning with Uncertainty
Estimation [34.97086123805344]
最近の多言語事前訓練型言語モデルは、目覚ましいゼロショット性能を実現している。
対象言語のラベルのないデータをさらに活用する自己学習フレームワークを提案する。
我々は,NER(Nond Entity Recognition)とNLI(Natural Language Inference)の2つの言語間タスクについて,40言語を網羅した不確実性で評価した。
論文 参考訳(メタデータ) (2021-09-01T05:26:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。