論文の概要: Calibrated Interpretation: Confidence Estimation in Semantic Parsing
- arxiv url: http://arxiv.org/abs/2211.07443v2
- Date: Wed, 16 Nov 2022 20:05:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 12:50:35.548426
- Title: Calibrated Interpretation: Confidence Estimation in Semantic Parsing
- Title(参考訳): Calibrated Interpretation:Semantic Parsingにおける信頼度推定
- Authors: Elias Stengel-Eskin and Benjamin Van Durme
- Abstract要約: 2つの共通英語意味解析データセットを用いて,3つのモデルファミリーにまたがる6つのモデルの校正特性について検討した。
信頼度に基づくしきい値設定は、76%の低信頼度プログラムの実行数を削減できることを示す。
ユーザビリティと安全性のバランスをとるDidiMeanシステムを提案する。
- 参考スコア(独自算出の注目度): 37.28245521206576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented semantic parsing is increasingly being used in user-facing
applications, making measuring the calibration of parsing models especially
important. We examine the calibration characteristics of six models across
three model families on two common English semantic parsing datasets, finding
that many models are reasonably well-calibrated and that there is a trade-off
between calibration and performance. Based on confidence scores across three
models, we propose and release new challenge splits of the two datasets we
examine. We then illustrate the ways a calibrated model can be useful in
balancing common trade-offs in task-oriented parsing. In a simulated
annotator-in-the-loop experiment, we show that using model confidence allows us
to improve performance by 9.6% (absolute) with interactions on only 2.2% of
tokens. Using sequence-level confidence scores, we then examine how we can
optimize trade-off between a parser's usability and safety. We show that
confidence-based thresholding can reduce the number of incorrect low-confidence
programs executed by 76%; however, this comes at a cost to usability. We
propose the DidYouMean system which balances usability and safety. We conclude
by calling for calibration to be included in the evaluation of semantic parsing
systems, and release a library for computing calibration metrics.
- Abstract(参考訳): タスク指向意味解析はユーザ向けアプリケーションでますます使われており、解析モデルのキャリブレーションの計測が特に重要である。
3つのモデルファミリーにまたがる6つのモデルのキャリブレーション特性を2つの共通英語意味構文解析データセットで検討し,多くのモデルが適度に適合しており,キャリブレーションと性能との間にトレードオフがあることを発見した。
3つのモデルにまたがる信頼度スコアに基づいて,検討した2つのデータセットの新たなチャレンジスプリットを提案し,リリースする。
次に,タスク指向解析における共通トレードオフのバランスをとる上で,校正モデルが有用であることを示す。
模擬アノテータ・イン・ザ・ループ実験では、モデルの信頼性を利用することで、トークンの2.2%しか相互作用しないため、パフォーマンスを9.6%向上できることを示した。
シーケンスレベルの信頼度スコアを用いて、パーサのユーザビリティと安全性の間のトレードオフを最適化する方法を検討する。
信頼度に基づくしきい値設定は、不正確な低信頼プログラムの実行回数を76%削減できるが、ユーザビリティにはコストがかかる。
ユーザビリティと安全性のバランスをとるDidiMeanシステムを提案する。
最後に、意味解析システムの評価に校正を含めるよう呼びかけ、校正メトリクスを計算するためのライブラリをリリースする。
関連論文リスト
- Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Beyond Probability Partitions: Calibrating Neural Networks with Semantic
Aware Grouping [45.09248880938502]
研究によると、ディープネットワークは予測に対して過度に楽観的であり、予測エラーを過小評価する傾向がある。
分割誤差 (Partitioned Error, PCE) という,より一般化された校正誤差の定義を提案する。
モデル精度とキャリブレーションの関係は分割関数の粒度に関係していることを示す。
論文 参考訳(メタデータ) (2023-06-08T07:16:03Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - Calibrated neighborhood aware confidence measure for deep metric
learning [0.0]
深度メートル法学習は、数ショット学習、画像検索、およびオープンセット分類の問題にうまく適用されてきた。
深層学習モデルの信頼度を測定し、信頼できない予測を特定することは、まだオープンな課題です。
本稿では,その分類精度をよく反映した校正・解釈可能な信頼度尺度の定義に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-08T21:05:38Z) - Multivariate Confidence Calibration for Object Detection [7.16879432974126]
本稿では,物体検出手法の偏りのある信頼度推定を計測・校正するための新しい枠組みを提案する。
提案手法により,画像位置とボックススケールに対する補正された信頼度推定値が得られた。
提案手法は,物体検出タスクにおける最先端キャリブレーションモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-28T14:17:41Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。