論文の概要: Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention
- arxiv url: http://arxiv.org/abs/2503.08640v1
- Date: Tue, 11 Mar 2025 17:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:19.047327
- Title: Efficient Many-Shot In-Context Learning with Dynamic Block-Sparse Attention
- Title(参考訳): 動的ブロックスパース注意によるマルチショットインコンテキスト学習の効率化
- Authors: Emily Xiao, Chin-Jou Li, Yilin Zhang, Graham Neubig, Amanda Bertsch,
- Abstract要約: マルチショットのインコンテキスト学習は、最近、ファインタニングの代替として約束されている。
これにより、計算負荷がトレーニング時間から推論時間にシフトする。
本稿では,動的ブロックスパース注意(Dynamic Block-Sparse Attention)を提案する。
- 参考スコア(独自算出の注目度): 45.20728476185864
- License:
- Abstract: Many-shot in-context learning has recently shown promise as an alternative to finetuning, with the major advantage that the same model can be served for multiple tasks. However, this shifts the computational burden from training-time to inference-time, making deployment of many-shot ICL challenging to justify in-practice. This cost is further increased if a custom demonstration set is retrieved for each inference example. We present Dynamic Block-Sparse Attention, a training-free framework for retrieval-based many-shot in-context learning. By combining carefully designed block-sparse attention and retrieval of cached groups of demonstrations, we achieve comparable per-example latency to finetuning while maintaining on average >95% of the best method's accuracy across strong ICL and finetuning baselines. We hope that this will further enable the deployment of many-shot ICL at scale.
- Abstract(参考訳): マルチショットのインコンテキスト学習は、最近、ファインタニングの代替として、複数のタスクに同じモデルを適用できることの大きな利点として、約束されている。
しかし、これは計算負荷をトレーニング時間から推論時間にシフトさせ、多発性ICLの展開を実践上の正当化に困難にさせる。
カスタムのデモセットが各推論例に対して検索されると、このコストはさらに増加する。
本稿では,動的ブロックスパース注意(Dynamic Block-Sparse Attention)を提案する。
ブロックスパース・アテンションを慎重に設計し、キャッシュされたデモグループを検索することにより、優れたICLと微調整ベースラインをまたいで、最高のメソッドの精度の95%以上を維持しながら、ファインタニングに匹敵するレイテンシを実現する。
これにより、多数のショットICLを大規模に展開することが可能になると期待しています。
関連論文リスト
- Localization-Aware Multi-Scale Representation Learning for Repetitive Action Counting [19.546761142820376]
反復的行動カウント (RAC) は、ビデオにおけるクラス非依存の行動発生回数を、例のない形で推定することを目的としている。
現在のRAC法の多くは、生のフレーム間類似性表現を周期予測に頼っている。
我々は、より堅牢で効率的なビデオ特徴を得るために、前景のローカライゼーション目標を類似性表現学習に導入する。
論文 参考訳(メタデータ) (2025-01-13T13:24:41Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Anytime Continual Learning for Open Vocabulary Classification [15.228942895385432]
AnytimeCLの問題は、バッチトレーニングと厳格なモデルから切り離すことだ。
本研究では,部分的に微調整されたモデルの予測と固定された開語彙モデルとの動的重み付けを提案する。
提案手法は,学習と推論の柔軟性をテストする実験によって検証される。
論文 参考訳(メタデータ) (2024-09-13T03:34:37Z) - SeCoKD: Aligning Large Language Models for In-Context Learning with Fewer Shots [9.048091324917515]
本稿では,学生モデルと非常に刺激的なバリエーションを調和させる自己学習蒸留(KD)トレーニングフレームワークであるSeCoKDを紹介する。
我々は3つの大規模言語モデル(LLM)と6つのベンチマークでSeCoKDを実験した。
その結果,提案手法はベースモデルとSupervised Fine-tuning(SFT)よりも優れていた。
SeCoKDは、新しいタスクで評価する際の否定的な成果物はほとんど提供しないが、Supervised Fine-tuningよりも堅牢である。
論文 参考訳(メタデータ) (2024-06-20T11:26:06Z) - In-Context Learning with Long-Context Models: An In-Depth Exploration [92.16922648612807]
大規模なラベル空間を持つ多くのデータセットでは、数千のデモでパフォーマンスが向上し続けています。
長文ICLは有効なツールであり,デモセットのエンコーディングに長文を必要としない可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-30T21:06:52Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Multimodal Parameter-Efficient Few-Shot Class Incremental Learning [1.9220716793379256]
FSCIL(Few-Shot Class Incremental Learning)は、いくつかの学習セッションで限られたトレーニング例が利用できる、挑戦的な継続的学習タスクである。
このタスクを成功させるためには、数発のトレーニングセットにおけるバイアス分布に起因する新しいクラスを過度に適合させるのを避ける必要がある。
CPE-CLIPは、最先端の提案と比較してFSCILの性能を著しく改善すると同時に、学習可能なパラメータの数やトレーニングコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-03-08T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。