論文の概要: Mind the instructions: a holistic evaluation of consistency and
interactions in prompt-based learning
- arxiv url: http://arxiv.org/abs/2310.13486v1
- Date: Fri, 20 Oct 2023 13:25:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 22:43:26.239058
- Title: Mind the instructions: a holistic evaluation of consistency and
interactions in prompt-based learning
- Title(参考訳): 指示を意識する:即興学習における一貫性と相互作用の総合評価
- Authors: Lucas Weber, Elia Bruni and Dieuwke Hupkes
- Abstract要約: 本稿では,どの設計選択が課題予測の不安定性や矛盾の原因となるかを詳細に分析する。
本稿では,入力分布とラベルの相関関係が,誘導モデルにのみ小さな問題となることを示す。
統計的に分析し、どの要因が最も影響力があり、インタラクティブで、安定したかを示す。
- 参考スコア(独自算出の注目度): 14.569770617709073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finding the best way of adapting pre-trained language models to a task is a
big challenge in current NLP. Just like the previous generation of task-tuned
models (TT), models that are adapted to tasks via in-context-learning (ICL) are
robust in some setups but not in others. Here, we present a detailed analysis
of which design choices cause instabilities and inconsistencies in LLM
predictions. First, we show how spurious correlations between input
distributions and labels -- a known issue in TT models -- form only a minor
problem for prompted models. Then, we engage in a systematic, holistic
evaluation of different factors that have been found to influence predictions
in a prompting setup. We test all possible combinations of a range of factors
on both vanilla and instruction-tuned (IT) LLMs of different scale and
statistically analyse the results to show which factors are the most
influential, interactive or stable. Our results show which factors can be used
without precautions and which should be avoided or handled with care in most
settings.
- Abstract(参考訳): トレーニング済みの言語モデルをタスクに適応させる最善の方法を見つけることは、現在のNLPにおいて大きな課題である。
従来のタスクチューニングモデル(TT)と同様に、ICL(In-context-learning)を介してタスクに適応するモデルは、いくつかの設定では堅牢であるが、他の設定では堅牢である。
本稿では,LLM予測における設計選択が不安定性や矛盾の原因となる要因を詳細に分析する。
まず、入力分布とラベル(TTモデルで既知の問題)の急激な相関関係が、誘導モデルにのみ小さな問題となることを示す。
そこで我々は, 予測に影響を及ぼす要因の系統的, 包括的評価を行う。
我々は,バニラと命令調整型(IT)LLMの両方において,様々な要因の可能な組み合わせを検証し,その結果を統計的に分析し,最も影響力があり,対話的であり,安定した要因を示す。
以上の結果から,どの要因を予防なく利用できるか,ほとんどの設定で避けるべきか,治療すべきかが分かる。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - A Unified Causal View of Instruction Tuning [76.1000380429553]
メタ構造因果モデル(meta-SCM)を開発し、異なるNLPタスクをデータの単一因果構造の下で統合する。
主なアイデアは、タスク要求因果関係を学習し、タスクの予測にのみそれらを使用することである。
論文 参考訳(メタデータ) (2024-02-09T07:12:56Z) - The ICL Consistency Test [14.569770617709073]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。
素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。
ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
論文 参考訳(メタデータ) (2023-12-08T10:22:43Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。