論文の概要: GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks
- arxiv url: http://arxiv.org/abs/2311.09606v1
- Date: Thu, 16 Nov 2023 06:28:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:13:09.594629
- Title: GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks
- Title(参考訳): GistScore: Gist Bottlenecksを使ったコンテキスト内サンプル選択のための表現の改善
- Authors: Shivanshu Gupta, Clemens Rosenbaum, Ethan R. Elenberg
- Abstract要約: 大規模言語モデル(LLM)は、新しいタスクのコンテキスト内学習(ICL)を実行する能力を持つ。
既存のアプローチでは、より大きなLLMからのフィードバックによるトレーニングが必要か、あるいは計算コストがかかる。
本稿では,ICL のサンプルレトリバーをトレーニングするための新しい手法である Example Gisting に基づく新しいメトリクス GistScore を提案する。
- 参考スコア(独自算出の注目度): 3.9638110494107095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have the ability to perform in-context learning
(ICL) of new tasks by conditioning on prompts comprising a few task examples.
This work studies the problem of selecting the best examples given a candidate
pool to improve ICL performance on given a test input. Existing approaches
either require training with feedback from a much larger LLM or are
computationally expensive. We propose a novel metric, GistScore, based on
Example Gisting, a novel approach for training example retrievers for ICL using
an attention bottleneck via Gisting, a recent technique for compressing task
instructions. To tradeoff performance with ease of use, we experiment with both
fine-tuning gist models on each dataset and multi-task training a single model
on a large collection of datasets. On 21 diverse datasets spanning 9 tasks, we
show that our fine-tuned models get state-of-the-art ICL performance with 20%
absolute average gain over off-the-shelf retrievers and 7% over the best prior
methods. Our multi-task model generalizes well out-of-the-box to new task
categories, datasets, and prompt templates with retrieval speeds that are
consistently thousands of times faster than the best prior training-free
method.
- Abstract(参考訳): 大規模言語モデル(LLM)は、いくつかのタスク例を含むプロンプトを条件にすることで、新しいタスクのコンテキスト内学習(ICL)を実行することができる。
本研究は、テスト入力が与えられた場合のicl性能を改善するために、候補プールが与えられた最善の例を選択する問題を考察する。
既存のアプローチでは、より大きなLLMからのフィードバックによるトレーニングが必要か、あるいは計算コストがかかる。
本稿では,近年のタスク命令圧縮手法であるgistingを用いて,iclのサンプルレトリバーをトレーニングするための新しい手法であるgistcoreを提案する。
使いやすさでパフォーマンスをトレードオフするため、各データセット上のgistモデルの微調整と、多数のデータセット上の単一のモデルをマルチタスクでトレーニングする実験を行った。
9つのタスクにまたがる21の多様なデータセットについて、我々の微調整されたモデルが最先端のicl性能を得られることを示しました。
我々のマルチタスクモデルは、新しいタスクカテゴリ、データセット、そして、最高のトレーニングフリーメソッドよりも何千倍も高速な検索速度を持つテンプレートに、うまく最適化する。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Self-Evolved Diverse Data Sampling for Efficient Instruction Tuning [47.02160072880698]
モデル自体が等しくあるいはそれ以上に効果的であるサブセットを積極的にサンプリングできる自己進化メカニズムを導入します。
データサンプリング技術の鍵は、選択したサブセットの多様性の向上にあります。
3つのデータセットとベンチマークにわたる大規模な実験は、DiverseEvolの有効性を示している。
論文 参考訳(メタデータ) (2023-11-14T14:10:40Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - RPLKG: Robust Prompt Learning with Knowledge Graph [11.893917358053004]
知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。
知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。
RPLKGはゼロショット学習に比べてパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-04-21T08:22:58Z) - MILO: Model-Agnostic Subset Selection Framework for Efficient Model
Training and Tuning [68.12870241637636]
モデル学習からサブセット選択を分離するモデルに依存しないサブセット選択フレームワークMILOを提案する。
実験結果から、MILOはモデルを3ドル(約3,300円)でトレーニングし、ハイパーパラメータを20ドル(約2,300円)でチューニングできます。
論文 参考訳(メタデータ) (2023-01-30T20:59:30Z) - Data Curation Alone Can Stabilize In-context Learning [20.874674130060388]
In-context Learning (ICL) は、大規模な言語モデルに対して、一連のトレーニング例でそれらを促すことで、新しいタスクを実行することを可能にする。
トレーニングセットからランダムにサンプルをサンプリングすると、パフォーマンスのばらつきが高くなります。
トレーニングデータのサブセットを慎重にキュレートすることは、ICLアルゴリズムに他の変更を加えることなく、ICLのパフォーマンスを大幅に安定化させることを示す。
論文 参考訳(メタデータ) (2022-12-20T15:58:54Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。