論文の概要: GIO: Gradient Information Optimization for Training Dataset Selection
- arxiv url: http://arxiv.org/abs/2306.11670v3
- Date: Sat, 27 Jul 2024 00:06:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 01:06:50.392090
- Title: GIO: Gradient Information Optimization for Training Dataset Selection
- Title(参考訳): GIO: トレーニングデータセット選択のための勾配情報最適化
- Authors: Dante Everaert, Christopher Potts,
- Abstract要約: 我々は、このデータ選択問題に対するスケーラブルでタスクに依存しないアプローチであるグラディエント・インフォメーション・最適化(GIO)を提案する。
GIOは自然で情報理論的な目的から始まり、実際は難解である。
機械翻訳、スペル補正、画像認識の実験では、非常に小さな列車セットで優れた結果が得られることを示した。
- 参考スコア(独自算出の注目度): 17.635984251209756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is often advantageous to train models on a subset of the available train examples, because the examples are of variable quality or because one would like to train with fewer examples, without sacrificing performance. We present Gradient Information Optimization (GIO), a scalable, task-agnostic approach to this data selection problem that requires only a small set of (unlabeled) examples representing a target distribution. GIO begins from a natural, information-theoretic objective that is intractable in practice. Our contribution is in showing that it can be made highly scalable through a simple relaxation of the objective and a highly efficient implementation. In experiments with machine translation, spelling correction, and image recognition, we show that GIO delivers outstanding results with very small train sets. These findings are robust to different representation models and hyperparameters for GIO itself. GIO is task- and domain-agnostic and can be applied out-of-the-box to new datasets and domains. We open source a pip-installable implementation of the algorithm as "pip install grad-info-opt".
- Abstract(参考訳): 利用可能な列車の例のサブセットでモデルを訓練することはしばしば有利である、なぜならその例は様々な品質のものであるか、または、性能を犠牲にすることなくより少ない例でモデルを訓練したいからである。
本稿では、このデータ選択問題に対するスケーラブルでタスクに依存しないアプローチであるグラディエント・インフォメーション・最適化(GIO)を提案する。
GIOは自然で情報理論的な目的から始まり、実際は難解である。
私たちの貢献は、目的をシンプルに緩和し、非常に効率的な実装をすることで、高度にスケーラブルにできることを示すことです。
機械翻訳、スペル補正、画像認識の実験では、非常に小さな列車セットで優れた結果が得られることを示した。
これらの発見は、GIO自体の異なる表現モデルとハイパーパラメータに対して堅牢である。
GIOはタスクとドメインに依存しないため、新しいデータセットやドメインに最初から適用することができる。
pip- installable implementation of the algorithm as "pip install grad-info-opt"。
関連論文リスト
- Exploiting Local Features and Range Images for Small Data Real-Time Point Cloud Semantic Segmentation [4.02235104503587]
本稿では,3次元表現から得られる情報を利用して局所的な特徴を巧みにとらえる。
GPUベースのKDTreeは、素早いビルド、クエリ、プロジェクションの強化を、簡単な操作で実現している。
我々は,本モデルの縮小バージョンが,本格的な最先端モデルに対して強い競争力を示すだけでなく,リアルタイムに動作することを示す。
論文 参考訳(メタデータ) (2024-10-14T13:49:05Z) - Just How Flexible are Neural Networks in Practice? [89.80474583606242]
ニューラルネットワークは、パラメータを持つ少なくとも多くのサンプルを含むトレーニングセットに適合できると広く信じられている。
しかし実際には、勾配や正規化子など、柔軟性を制限したトレーニング手順によるソリューションしか見つからない。
論文 参考訳(メタデータ) (2024-06-17T12:24:45Z) - Get more for less: Principled Data Selection for Warming Up Fine-Tuning in LLMs [18.242110417706]
この研究は、膨大なラベルのないオープンデータから事前訓練された言語モデルへの活用と選択に焦点を当てている。
特定の条件下での微調整タスクに対するこのアプローチの最適性を示す。
提案手法は既存の手法よりもはるかに高速で,GPU時間内に数百万のサンプルにスケールアップする。
論文 参考訳(メタデータ) (2024-05-05T00:08:00Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - GistScore: Learning Better Representations for In-Context Example
Selection with Gist Bottlenecks [3.9638110494107095]
In-context Learning(ICL)は、大規模言語モデル(LLM)がプロンプトで条件付きで新しいタスクを実行する機能である。
本稿では,教師付き微調整によるサンプルエンコーダの学習手法であるサンプルギストリングを提案する。
我々の微調整モデルでは、既成のレトリバーよりも20%以上向上し、最先端のICL性能が得られている。
論文 参考訳(メタデータ) (2023-11-16T06:28:05Z) - AdaNPC: Exploring Non-Parametric Classifier for Test-Time Adaptation [64.9230895853942]
ドメインの一般化は、ターゲットのドメイン情報を活用することなく、任意に困難にすることができる。
この問題に対処するためにテスト時適応(TTA)手法が提案されている。
本研究では,テスト時間適応(AdaNPC)を行うためにNon-Parametricを採用する。
論文 参考訳(メタデータ) (2023-04-25T04:23:13Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Large-batch Optimization for Dense Visual Predictions [28.229216119624244]
我々は,非常に大きなバッチサイズで高密度な視覚予測器を訓練するための適応勾配分散変調器 (AGVM) を提案する。
AGVMは、バックボーン、フィーチャーピラミッドネットワーク(FPN)、検出、セグメンテーションヘッドなど、密集した視覚予測器内の異なるモジュール間の勾配のばらつきを調整できる。
わずか3.5時間で10億個のパラメータを持つ物体検出器を訓練し、訓練時間を20.9倍にし、COCO上で62.2 mAPを達成する。
論文 参考訳(メタデータ) (2022-10-20T08:11:52Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - SCE: Scalable Network Embedding from Sparsest Cut [20.08464038805681]
大規模ネットワーク埋め込みは、教師なしの方法で各ノードの潜在表現を学習することである。
このような対照的な学習手法の成功の鍵は、正と負のサンプルを引き出す方法である。
本稿では, 負のサンプルのみを用いた教師なしネットワーク埋め込みのためのSCEを提案する。
論文 参考訳(メタデータ) (2020-06-30T03:18:15Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。