論文の概要: The ICL Consistency Test
- arxiv url: http://arxiv.org/abs/2312.04945v1
- Date: Fri, 8 Dec 2023 10:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:23:12.284832
- Title: The ICL Consistency Test
- Title(参考訳): ICL整合性試験
- Authors: Lucas Weber, Elia Bruni, Dieuwke Hupkes
- Abstract要約: 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)のようなプロンプトベースの手法によってタスクに適応する。
素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。
ここでは ICL 一貫性テストを紹介します -- GenBench 共同ベンチマークタスク (CBT) へのコントリビューションです。
- 参考スコア(独自算出の注目度): 14.569770617709073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Just like the previous generation of task-tuned models, large language models
(LLMs) that are adapted to tasks via prompt-based methods like
in-context-learning (ICL) perform well in some setups but not in others. This
lack of consistency in prompt-based learning hints at a lack of robust
generalisation. We here introduce the ICL consistency test -- a contribution to
the GenBench collaborative benchmark task (CBT) -- which evaluates how
consistent a model makes predictions across many different setups while using
the same data. The test is based on different established natural language
inference tasks. We provide preprocessed data constituting 96 different
'setups' and a metric that estimates model consistency across these setups. The
metric is provided on a fine-grained level to understand what properties of a
setup render predictions unstable and on an aggregated level to compare overall
model consistency. We conduct an empirical analysis of eight state-of-the-art
models, and our consistency metric reveals how all tested LLMs lack robust
generalisation.
- Abstract(参考訳): 前世代のタスクチューニングモデルと同じように、インコンテキスト学習(icl)のようなプロンプトベースのメソッドを通じてタスクに適合する大型言語モデル(llm)は、一部のセットアップではうまく機能するが、他ではうまく動作しない。
素早い学習における一貫性の欠如は、堅牢な一般化の欠如を示唆している。
これは、モデルが、同じデータを使用しながら、さまざまなセットアップでどの程度一貫した予測を行うかを評価するものだ。
テストは、異なる確立された自然言語推論タスクに基づいている。
96の異なる'セットアップ'を構成する事前処理データと、これらのセットアップ間でモデルの一貫性を推定するメトリクスを提供する。
このメトリクスは、セットアップレンダリングのどの特性が不安定であるかを理解するためにきめ細かいレベルで提供され、全体のモデルの一貫性を比較するために集約されたレベルで提供される。
我々は,8つの最先端モデルの実証分析を行い,全てのLLMが堅牢な一般化を欠いていることを示す。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - cDP-MIL: Robust Multiple Instance Learning via Cascaded Dirichlet Process [23.266122629592807]
マルチプル・インスタンス・ラーニング (MIL) は全スライス・ヒストパラメトリック・イメージ (WSI) 解析に広く応用されている。
MILの既存の集約戦略は、主にインスタンス間の一階距離に依存するが、各インスタンスの真の特徴分布を正確に近似することができない。
本稿では、複数のインスタンス学習のための新しいベイズ非パラメトリックフレームワークを提案し、WSIのインスタンス・ツー・バッグ特性を組み込むためにディリクレ・プロセスのカスケード(cDP)を採用する。
論文 参考訳(メタデータ) (2024-07-16T07:28:39Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Diversity-Aware Ensembling of Language Models Based on Topological Data
Analysis [3.1734682813501514]
既存のアプローチは主に、各モデルに等しい重みを持つアンサンブルによる予測の単純な平均化に依存している。
我々は,NLPモデルのアンサンブルに対する重み付けを,個々の性能の知識だけでなく,互いに類似した知識を用いて推定することを提案する。
論文 参考訳(メタデータ) (2024-02-22T00:04:21Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Mind the instructions: a holistic evaluation of consistency and
interactions in prompt-based learning [14.569770617709073]
本稿では,どの設計選択が課題予測の不安定性や矛盾の原因となるかを詳細に分析する。
本稿では,入力分布とラベルの相関関係が,誘導モデルにのみ小さな問題となることを示す。
統計的に分析し、どの要因が最も影響力があり、インタラクティブで、安定したかを示す。
論文 参考訳(メタデータ) (2023-10-20T13:25:24Z) - On the Compositional Generalization Gap of In-Context Learning [73.09193595292233]
In-distriion (ID) と Out-of-distriion (OOD) の相違について考察する。
我々は,3つの意味解析データセットを用いて,OPT,BLOOM,CodeGen,Codexの4つのモデルファミリを評価する。
論文 参考訳(メタデータ) (2022-11-15T19:56:37Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。