論文の概要: Calibrated Interpretation: Confidence Estimation in Semantic Parsing
- arxiv url: http://arxiv.org/abs/2211.07443v4
- Date: Wed, 29 Mar 2023 15:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:23:53.055382
- Title: Calibrated Interpretation: Confidence Estimation in Semantic Parsing
- Title(参考訳): Calibrated Interpretation:Semantic Parsingにおける信頼度推定
- Authors: Elias Stengel-Eskin and Benjamin Van Durme
- Abstract要約: 4つの一般的な意味解析データセットにおける共通生成モデルの校正について検討する。
我々は、校正誤差に関連する要因を分析し、新しい信頼性に基づく課題分割を公表する。
セマンティック解析評価にキャリブレーションを組み込むことを容易にするため,キャリブレーションメトリクスを計算するためのライブラリをリリースする。
- 参考スコア(独自算出の注目度): 37.28245521206576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence generation models are increasingly being used to translate language
into executable programs, i.e. to perform executable semantic parsing. The fact
that semantic parsing aims to execute actions in the real world motivates
developing safe systems, which in turn makes measuring calibration -- a central
component to safety -- particularly important. We investigate the calibration
of common generation models across four popular semantic parsing datasets,
finding that it varies across models and datasets. We then analyze factors
associated with calibration error and release new confidence-based challenge
splits of two parsing datasets. To facilitate the inclusion of calibration in
semantic parsing evaluations, we release a library for computing calibration
metrics.
- Abstract(参考訳): シーケンス生成モデルは、言語を実行可能なプログラムに変換するために、すなわち実行可能なセマンティック解析を実行するために、ますます使われている。
セマンティック解析が現実の世界でアクションを実行することを目的としているという事実は、安全なシステムを開発する動機となっている。
一般的な4つのセマンティックパーシングデータセット間の共通生成モデルの校正について検討し、モデルやデータセットによって異なることを明らかにする。
次に、キャリブレーションエラーに関連する要因を分析し、2つの解析データセットの新しい信頼度に基づく課題分割をリリースする。
セマンティック解析評価にキャリブレーションを組み込むことを容易にするため,キャリブレーションメトリクスを計算するためのライブラリをリリースする。
関連論文リスト
- Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Beyond Probability Partitions: Calibrating Neural Networks with Semantic
Aware Grouping [45.09248880938502]
研究によると、ディープネットワークは予測に対して過度に楽観的であり、予測エラーを過小評価する傾向がある。
分割誤差 (Partitioned Error, PCE) という,より一般化された校正誤差の定義を提案する。
モデル精度とキャリブレーションの関係は分割関数の粒度に関係していることを示す。
論文 参考訳(メタデータ) (2023-06-08T07:16:03Z) - Calibration of Neural Networks [77.34726150561087]
本稿では,ニューラルネットワークの文脈における信頼性校正問題について調査する。
我々は,問題文,キャリブレーション定義,評価に対する異なるアプローチについて分析する。
実験実験では、様々なデータセットとモデルをカバーし、異なる基準に従って校正方法を比較する。
論文 参考訳(メタデータ) (2023-03-19T20:27:51Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - Calibrated neighborhood aware confidence measure for deep metric
learning [0.0]
深度メートル法学習は、数ショット学習、画像検索、およびオープンセット分類の問題にうまく適用されてきた。
深層学習モデルの信頼度を測定し、信頼できない予測を特定することは、まだオープンな課題です。
本稿では,その分類精度をよく反映した校正・解釈可能な信頼度尺度の定義に焦点をあてる。
論文 参考訳(メタデータ) (2020-06-08T21:05:38Z) - Multivariate Confidence Calibration for Object Detection [7.16879432974126]
本稿では,物体検出手法の偏りのある信頼度推定を計測・校正するための新しい枠組みを提案する。
提案手法により,画像位置とボックススケールに対する補正された信頼度推定値が得られた。
提案手法は,物体検出タスクにおける最先端キャリブレーションモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-28T14:17:41Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。