論文の概要: What are the Desired Characteristics of Calibration Sets? Identifying
Correlates on Long Form Scientific Summarization
- arxiv url: http://arxiv.org/abs/2305.07615v1
- Date: Fri, 12 May 2023 17:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 12:00:50.867728
- Title: What are the Desired Characteristics of Calibration Sets? Identifying
Correlates on Long Form Scientific Summarization
- Title(参考訳): キャリブレーションセットの望ましい特性は何か?
長文科学要約における相関関係の同定
- Authors: Griffin Adams, Bichlien H Nguyen, Jake Smith, Yingce Xia, Shufang Xie,
Anna Ostropolets, Budhaditya Deb, Yuan-Jyue Chen, Tristan Naumann, No\'emie
Elhadad
- Abstract要約: 負の集合が抽出され、より発生しやすい場合には、忠実度校正が最適である。
キャリブレーションセットの作成、選択、最適化のためのコードはhttps://github.com/griff4692/calibrating-summaries.comで入手できる。
- 参考スコア(独自算出の注目度): 22.272466129018376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarization models often generate text that is poorly calibrated to quality
metrics because they are trained to maximize the likelihood of a single
reference (MLE). To address this, recent work has added a calibration step,
which exposes a model to its own ranked outputs to improve relevance or, in a
separate line of work, contrasts positive and negative sets to improve
faithfulness. While effective, much of this work has focused on how to generate
and optimize these sets. Less is known about why one setup is more effective
than another. In this work, we uncover the underlying characteristics of
effective sets. For each training instance, we form a large, diverse pool of
candidates and systematically vary the subsets used for calibration
fine-tuning. Each selection strategy targets distinct aspects of the sets, such
as lexical diversity or the size of the gap between positive and negatives. On
three diverse scientific long-form summarization datasets (spanning biomedical,
clinical, and chemical domains), we find, among others, that faithfulness
calibration is optimal when the negative sets are extractive and more likely to
be generated, whereas for relevance calibration, the metric margin between
candidates should be maximized and surprise--the disagreement between model and
metric defined candidate rankings--minimized. Code to create, select, and
optimize calibration sets is available at
https://github.com/griff4692/calibrating-summaries
- Abstract(参考訳): 要約モデルは、単一の参照(MLE)の可能性を最大化するように訓練されているため、品質指標に不適格なテキストを生成することが多い。
この問題に対処するため、最近の研究はキャリブレーションのステップを追加し、関係性を改善するためにモデルを公開するか、あるいは別の作業ラインで、正と負のセットを対比して忠実性を改善する。
効果的ではあるが、この作業の多くはこれらのセットの生成と最適化に重点を置いている。
セットアップが他のセットアップよりも効果的である理由については、あまり知られていない。
本研究では,有効集合の根本特性を明らかにする。
各トレーニングインスタンスに対して、大きな多様な候補のプールを形成し、キャリブレーションの微調整に使用するサブセットを体系的に変更する。
各選択戦略は、語彙の多様性や正と負のギャップの大きさなど、集合の異なる側面をターゲットにしている。
3つの科学的長方形の要約データセット(生体医学、臨床、化学領域をまたがる)について、特に、負のセットが抽出され、生成されやすい場合に忠実性校正が最適であるのに対し、適合性校正のためには、候補間のメートル法マージンを最大化し、驚きとして、モデルとメートル法で定義された候補ランキングの間の不一致を最小化すべきである。
キャリブレーションセットの作成、選択、最適化のためのコードはhttps://github.com/griff4692/calibrating-summariesで公開されている。
関連論文リスト
- Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Adaptive Calibrator Ensemble for Model Calibration under Distribution
Shift [23.794897699193875]
アダプティブ・キャリブレータ・アンサンブル(ACE)は、通常はキャリブレーション・セットよりも難しいOODデータセットをキャリブレーション・セットに分類する。
ACEは一般に、一連のOODベンチマークにおけるいくつかの最先端のキャリブレーション方式の性能を改善している。
論文 参考訳(メタデータ) (2023-03-09T15:22:02Z) - On Calibrating Semantic Segmentation Models: Analyses and An Algorithm [51.85289816613351]
セマンティックセグメンテーションキャリブレーションの問題について検討する。
モデルキャパシティ、作物サイズ、マルチスケールテスト、予測精度はキャリブレーションに影響を及ぼす。
我々は、単純で統一的で効果的なアプローチ、すなわち選択的スケーリングを提案する。
論文 参考訳(メタデータ) (2022-12-22T22:05:16Z) - Prototypical Calibration for Few-shot Learning of Language Models [84.5759596754605]
GPTライクなモデルは、さまざまな手作りテンプレートやデモ順列にまたがる脆弱であると認識されている。
ゼロショットと少数ショットの分類において、より堅牢な決定境界を適応的に学習するためのプロトタイプキャリブレーションを提案する。
提案手法は決定境界を期待通りに校正し,テンプレート,置換,クラス不均衡に対するGPTの堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-05-20T13:50:07Z) - Contrastive Test-Time Adaptation [83.73506803142693]
本稿では,自己指導型コントラスト学習を活用して特徴学習を支援する新しい手法を提案する。
擬似ラベルをオンラインで作成し、ターゲットのフィーチャースペースに最も近い隣人の間でソフト投票によってそれらを洗練します。
我々の手法であるAdaContrastは、主要なベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-04-21T19:17:22Z) - MBCT: Tree-Based Feature-Aware Binning for Individual Uncertainty
Calibration [29.780204566046503]
我々はMultiple Boosting Trees (MBCT)と呼ばれる特徴認識型バイナリフレームワークを提案する。
MBCTは非単調であり,学習可能なビンニング方式と個々のキャリブレーションにより,順序精度が向上する可能性がある。
その結果,本手法はキャリブレーション誤差と順序精度の両方で競合するモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-02-09T08:59:16Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Multi-Class Uncertainty Calibration via Mutual Information
Maximization-based Binning [8.780958735684958]
ポストホック多クラスキャリブレーションは、ディープニューラルネットワーク予測の信頼度推定を提供する一般的なアプローチである。
近年の研究では、広く使われているスケーリング手法がキャリブレーション誤差を過小評価していることが示されている。
類似クラス間で1つのキャリブレータを共有する共有クラスワイド(sCW)キャリブレーション戦略を提案する。
論文 参考訳(メタデータ) (2020-06-23T15:31:59Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Better Boosting with Bandits for Online Learning [0.5543867614999908]
学習において、校正機能を訓練するためのトレーニングデータの一部を保存して校正を行う。
オンライン設定では、各ラウンドで決定を行う必要がある: 新しい例は、アンサンブルのパラメータまたはキャリブレータのパラメータを更新するために使用される。
確率推定の観点で, 未校正, ナチカル校正のオンラインブースティングアンサンブルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-01-16T22:48:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。