論文の概要: Test-time Augmentation for Factual Probing
- arxiv url: http://arxiv.org/abs/2310.17121v1
- Date: Thu, 26 Oct 2023 03:41:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:21:02.685309
- Title: Test-time Augmentation for Factual Probing
- Title(参考訳): 実測のためのテスト時間拡張
- Authors: Go Kamoda, Benjamin Heinzerling, Keisuke Sakaguchi, Kentaro Inui
- Abstract要約: 事実探索の問題は、プロンプトの小さな変更がモデル出力に大きな変化をもたらす可能性があることである。
そこで本研究では,TTA(Test-time augmentation)を関係性に依存しない手法として用いて,感度を低減し,変動を誘発する手法を提案する。
- 参考スコア(独自算出の注目度): 33.12189913850943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factual probing is a method that uses prompts to test if a language model
"knows" certain world knowledge facts. A problem in factual probing is that
small changes to the prompt can lead to large changes in model output. Previous
work aimed to alleviate this problem by optimizing prompts via text mining or
fine-tuning. However, such approaches are relation-specific and do not
generalize to unseen relation types. Here, we propose to use test-time
augmentation (TTA) as a relation-agnostic method for reducing sensitivity to
prompt variations by automatically augmenting and ensembling prompts at test
time. Experiments show improved model calibration, i.e., with TTA, model
confidence better reflects prediction accuracy. Improvements in prediction
accuracy are observed for some models, but for other models, TTA leads to
degradation. Error analysis identifies the difficulty of producing high-quality
prompt variations as the main challenge for TTA.
- Abstract(参考訳): factual probingは、言語モデルが特定の世界の知識事実を「知っている」かどうかをテストするプロンプトを使用する方法である。
事実探索の問題は、プロンプトの小さな変更がモデル出力に大きな変化をもたらす可能性があることである。
以前はテキストマイニングや微調整によってプロンプトを最適化することでこの問題を緩和することを目的としていた。
しかし、そのようなアプローチは関係特異的であり、見当たらない関係型に一般化しない。
そこで本研究では,テスト時のプロンプトを自動拡張し,センシングすることで,変化を誘発する感度を低減させる手法として,tta(test-time augmentation)を提案する。
実験では、モデルキャリブレーションの改善、すなわちTTAではモデルの信頼性が予測精度を良く反映している。
いくつかのモデルでは予測精度が向上するが、他のモデルではTTAが劣化する。
エラー解析は、ttaの主な課題として、高品質のプロンプトバリエーションを生成することの難しさを識別する。
関連論文リスト
- Test-time Adaptation Meets Image Enhancement: Improving Accuracy via Uncertainty-aware Logit Switching [7.837009376353597]
テスト時間適応(TTA)は実用性からよく研究されている。
入力画像をTTA手法に組み込むことにより,予測の不確実性を低減できる。
TECA(Test-time Enhancer and Adaptation)は,予測の不確かさを低減し,TTA法の精度を向上させる。
論文 参考訳(メタデータ) (2024-03-26T06:40:03Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Robust Question Answering against Distribution Shifts with Test-Time
Adaptation: An Empirical Study [24.34217596145152]
テストデータがトレーニングデータと比較して分布シフトがある場合、デプロイされた質問応答(QA)モデルは容易に失敗する。
デプロイ後のモデルを改善するために,テスト時間適応(TTA)を評価した。
また,オンライン模倣学習(OIL)と呼ばれる新しいTTA手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T13:10:53Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。