論文の概要: Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering
- arxiv url: http://arxiv.org/abs/2309.17249v3
- Date: Sun, 01 Dec 2024 01:36:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:57:06.319489
- Title: Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering
- Title(参考訳): Batch Calibration: In-Context LearningとPrompt Engineeringの校正を再考する
- Authors: Han Zhou, Xingchen Wan, Lev Proleev, Diana Mincu, Jilin Chen, Katherine Heller, Subhrajit Roy,
- Abstract要約: Batch (BC) は、バッチ入力からコンテキストバイアスを制御する、単純だが直感的な手法である。
BCはゼロショットであり、推論のみであり、追加コストは無視できない。
10以上の自然言語理解および画像分類タスクにおいて,従来のキャリブレーションベースラインに対する最先端性能を示す。
- 参考スコア(独自算出の注目度): 12.348320788446841
- License:
- Abstract: Prompting and in-context learning (ICL) have become efficient learning paradigms for large language models (LLMs). However, LLMs suffer from prompt brittleness and various bias factors in the prompt, including but not limited to the formatting, the choice verbalizers, and the ICL examples. To address this problem that results in unexpected performance degradation, calibration methods have been developed to mitigate the effects of these biases while recovering LLM performance. In this work, we first conduct a systematic analysis of the existing calibration methods, where we both provide a unified view and reveal the failure cases. Inspired by these analyses, we propose Batch Calibration (BC), a simple yet intuitive method that controls the contextual bias from the batched input, unifies various prior approaches, and effectively addresses the aforementioned issues. BC is zero-shot, inference-only, and incurs negligible additional costs. In the few-shot setup, we further extend BC to allow it to learn the contextual bias from labeled data. We validate the effectiveness of BC with PaLM 2-(S, M, L) and CLIP models and demonstrate state-of-the-art performance over previous calibration baselines across more than 10 natural language understanding and image classification tasks.
- Abstract(参考訳): プロンプティングとインコンテキスト学習(ICL)は、大規模言語モデル(LLM)の効率的な学習パラダイムとなっている。
しかし、LSMはプロンプトの脆さや様々なバイアス要因に悩まされ、形式化、選択動詞化、ICLの例などに限定されない。
予期せぬ性能劣化をもたらすこの問題に対処するため,LLM性能を回復させながら,これらのバイアスの影響を軽減するキャリブレーション法が開発されている。
本研究では,まず既存のキャリブレーション手法を体系的に分析し,統一されたビューを提供し,失敗事例を明らかにする。
これらの分析にインスパイアされたBatch Calibration(BC)は、バッチ入力からコンテキストバイアスを制御し、様々な事前アプローチを統一し、上記の問題に効果的に対処する、単純かつ直感的な手法である。
BCはゼロショットであり、推論のみであり、追加コストは無視できない。
数ショットのセットアップでは、ラベル付きデータからコンテキストバイアスを学習できるように、さらにBCを拡張します。
我々は,PaLM 2-(S, M, L)およびCLIPモデルによるBCの有効性を検証するとともに,10以上の自然言語理解および画像分類タスクにおいて,以前の校正基準に対する最先端性能を示す。
関連論文リスト
- Task Calibration: Calibrating Large Language Models on Inference Tasks [23.257422868895855]
大規模言語モデル(LLM)は、推論タスクにおいて印象的なゼロショットのパフォーマンスを示した。
LLMは入力テキストと出力ラベルの間に急激な相関関係があり、それによって推論能力が制限される。
タスクキャリブレーション(TC: Task calibration)は、ゼロショットと推論のみのキャリブレーションであり、相互情報に触発されたキャリブレーション手法である。
論文 参考訳(メタデータ) (2024-10-24T14:18:32Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z) - Mitigating Boundary Ambiguity and Inherent Bias for Text Classification in the Era of Large Language Models [24.085614720512744]
本研究では,大規模言語モデル (LLM) がテキスト分類における選択肢の数や配置の変化に対して脆弱であることを示す。
重要なボトルネックは、曖昧な決定境界と、特定のトークンや位置に対する固有のバイアスから生じます。
我々のアプローチは、ペア比較が境界のあいまいさと固有のバイアスを効果的に緩和できるという経験的観察に基づいている。
論文 参考訳(メタデータ) (2024-06-11T06:53:19Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Causal Prompting: Debiasing Large Language Model Prompting based on Front-Door Adjustment [32.12998469814097]
大規模言語モデル(LLM)のバイアスを効果的に軽減するために,正面調整に基づく新たな因果的プロンプト手法を提案する。
実験結果から,提案手法は7つの自然言語処理データセットにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-05T07:47:34Z) - Prompt-Based Bias Calibration for Better Zero/Few-Shot Learning of Language Models [7.089534153472173]
事前学習された言語モデルに符号化された固有バイアスを校正するヌルインプットプロンプト法を提案する。
本手法は,テキスト内学習とプロンプトベースファインタニングの両方において,LMのゼロ/ファインショット学習性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-02-15T22:54:24Z) - Open-Vocabulary Calibration for Fine-tuned CLIP [44.82453633696438]
微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。
本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。
本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:42:48Z) - On Task Performance and Model Calibration with Supervised and
Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。
しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文 参考訳(メタデータ) (2023-12-21T11:55:10Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。