論文の概要: Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs
- arxiv url: http://arxiv.org/abs/2410.08020v1
- Date: Thu, 10 Oct 2024 15:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 05:55:13.979120
- Title: Efficiently Learning at Test-Time: Active Fine-Tuning of LLMs
- Title(参考訳): テスト時間での効率的な学習: LLMの能動的微調整
- Authors: Jonas Hübotter, Sascha Bongni, Ido Hakimi, Andreas Krause,
- Abstract要約: 本稿では,モデル応答の不確実性を低減するために設計されたデータ選択アルゴリズムSIFTを紹介する。
SIFTは計算オーバーヘッドを最小限に抑えながら、常に最近傍の検索より優れていることを示す。
我々は、Nearest Neighbor検索のドロップイン代替として使用できる$textttactiveft$ライブラリを提供する。
- 参考スコア(独自算出の注目度): 37.01883745855289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent efforts in fine-tuning language models often rely on automatic data selection, commonly using Nearest Neighbors retrieval from large datasets. However, we theoretically show that this approach tends to select redundant data, limiting its effectiveness or even hurting performance. To address this, we introduce SIFT, a data selection algorithm designed to reduce uncertainty about the model's response given a prompt, which unifies ideas from retrieval and active learning. Whereas Nearest Neighbor retrieval typically fails in the presence of information duplication, SIFT accounts for information duplication and optimizes the overall information gain of the selected examples. We focus our evaluations on fine-tuning at test-time for prompt-specific language modeling on the Pile dataset, and show that SIFT consistently outperforms Nearest Neighbor retrieval, with minimal computational overhead. Moreover, we show that our uncertainty estimates can predict the performance gain of test-time fine-tuning, and use this to develop an adaptive algorithm that invests test-time compute proportional to realized performance gains. We provide the $\texttt{activeft}$ (Active Fine-Tuning) library which can be used as a drop-in replacement for Nearest Neighbor retrieval.
- Abstract(参考訳): 最近の微調整言語モデルの取り組みは、多くの場合、大規模なデータセットからのNearest Neighbors検索を使用して、自動データ選択に依存している。
しかし、理論的には、このアプローチは冗長なデータを選択し、その有効性を制限したり、パフォーマンスを損なう傾向がある。
そこで本研究では,モデル応答の不確実性を低減するためのデータ選択アルゴリズムSIFTを導入し,検索とアクティブラーニングのアイデアを統一する。
しかしSIFTは情報重複を考慮し、選択したサンプルの全体的な情報取得を最適化する。
我々は、Pileデータセット上でのプロンプト固有言語モデリングのためのテスト時の微調整に焦点を合わせ、SIFTが計算オーバーヘッドを最小限に抑えながら、常に最寄りの検索より優れていることを示す。
さらに,テストタイム微調整の性能向上を予測できる不確実性の推定値を示し,これを用いて,実効的な性能向上に比例したテストタイム計算に投資する適応アルゴリズムを開発した。
我々は、Nearest Neighbor検索のドロップイン代替として使用できる$\texttt{activeft}$ (Active Fine-Tuning)ライブラリを提供する。
関連論文リスト
- Language Model-Driven Data Pruning Enables Efficient Active Learning [6.816044132563518]
我々は、未ラベルデータプルーニング戦略であるActivePruneを導入し、未ラベルデータプールをプルークする。
ラベルのないプールの多様性を高めるために,新しいパープレキシティ再重み付け法を提案する。
翻訳、感情分析、トピック分類、要約タスクの実験は、ActivePruneが既存のデータプルーニング方法より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-05T19:46:11Z) - CANDY: A Benchmark for Continuous Approximate Nearest Neighbor Search with Dynamic Data Ingestion [8.036012885171166]
我々は、動的データ取り込みを伴う連続近似Nearest Neighbor Searchに適したベンチマークであるCANDYを紹介する。
CANDYは幅広いAKNNアルゴリズムを包括的に評価し、機械学習駆動推論のような高度な最適化を統合する。
多様なデータセットに対する評価では、より単純なAKNNベースラインが、リコールやレイテンシの点で、より複雑な選択肢を上回ることが示されている。
論文 参考訳(メタデータ) (2024-06-28T04:46:11Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Fast Classification with Sequential Feature Selection in Test Phase [1.1470070927586016]
本稿では,分類のための能動的特徴獲得のための新しいアプローチを提案する。
最適な予測性能を達成するために、最も情報性の高い機能のサブセットを順次選択する作業である。
提案手法では,既存の手法に比べてはるかに高速で効率の良い新しい遅延モデルが提案されている。
論文 参考訳(メタデータ) (2023-06-25T21:31:46Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Differentially Private Query Release Through Adaptive Projection [19.449593001368193]
我々は,$k$-way マージンのような膨大な統計クエリに対する回答を解放するための新しいアルゴリズムを提案し,実装し,評価する。
我々のアルゴリズムは、単純な摂動を用いて、プライベートデータセット上のクエリに応答するプロジェクションメカニズムの連続緩和を適応的に利用する。
特に,プライバシ予算が小さい場合や,クエリクラスが大きい場合など,既存のアルゴリズムよりも優れていることが判明した。
論文 参考訳(メタデータ) (2021-03-11T12:43:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。