Fugu-MT 論文翻訳(概要): Scaling Up Influence Functions

論文の概要: Scaling Up Influence Functions

arxiv url: http://arxiv.org/abs/2112.03052v1
Date: Mon, 6 Dec 2021 13:54:08 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-07 14:18:46.335788
Title: Scaling Up Influence Functions
Title（参考訳）: 影響関数のスケールアップ
Authors: Andrea Schioppa, Polina Zablotskaia, David Vilar, Artem Sokolov
Abstract要約: トレーニングデータに対する予測の追跡に有効な影響関数の計算に対処する。我々は、我々の知る限り、フルサイズのトランスフォーマーモデルにスケールする影響関数の最初の実装に成功した。
参考スコア（独自算出の注目度）: 6.310723785587086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We address efficient calculation of influence functions for tracking predictions back to the training data. We propose and analyze a new approach to speeding up the inverse Hessian calculation based on Arnoldi iteration. With this improvement, we achieve, to the best of our knowledge, the first successful implementation of influence functions that scales to full-size (language and vision) Transformer models with several hundreds of millions of parameters. We evaluate our approach on image classification and sequence-to-sequence tasks with tens to a hundred of millions of training examples. Our code will be available at https://github.com/google-research/jax-influence.
Abstract（参考訳）: トレーニングデータに対する予測の追跡に有効な影響関数の計算に対処する。我々はアルノルニ反復に基づく逆ヘッセン計算の高速化のための新しい手法を提案し,解析する。この改良により、私たちの知る限りでは、数億のパラメータを持つフルサイズの(言語と視覚)トランスフォーマーモデルにスケールする影響関数の最初の実装が成功しました。画像分類とシーケンシャル・ツー・シーケンスタスクのアプローチを,何千から1億のトレーニング例で評価した。私たちのコードはhttps://github.com/google-research/jax-influenceで利用可能です。

関連論文リスト

Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Studying Large Language Model Generalization with Influence Functions [29.577692176892135]
モデルパラメータ(とそれによる出力)は、トレーニングセットにシーケンスが追加された場合、どのように変化するのか? 我々はEigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC)近似を用いて、最大52億のパラメータを持つ大規模言語モデル(LLM)まで影響関数をスケールする。本研究では, LLMの一般化パターンについて検討し, 影響パターンの空間性, スケールによる抽象化の増大, 数学とプログラミングの能力, 言語間一般化, ロールプレイング行動などを検討した。
論文参考訳（メタデータ） (2023-08-07T04:47:42Z)
ProFormer: Learning Data-efficient Representations of Body Movement with Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文参考訳（メタデータ） (2022-02-23T11:11:54Z)
MIO : Mutual Information Optimization using Self-Supervised Binary Contrastive Learning [19.5917119072985]
対が正かどうかを予測するために、比較学習を二項分類問題にモデル化する。提案手法は,STL-10,CIFAR-10,CIFAR-100などのベンチマークデータセットにおいて,最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2021-11-24T17:51:29Z)
Rectification-based Knowledge Retention for Continual Learning [49.1447478254131]
ディープラーニングモデルは、インクリメンタルな学習環境で訓練されたときに壊滅的な忘れに苦しむ。タスクインクリメンタル学習問題に対処するための新しいアプローチを提案する。これは、インクリメンタルに到着する新しいタスクに関するモデルをトレーニングすることを含む。私たちのアプローチは、ゼロショットと非ゼロショットタスクインクリメンタルラーニング設定の両方で使用できます。
論文参考訳（メタデータ） (2021-03-30T18:11:30Z)
FastIF: Scalable Influence Functions for Efficient Model Interpretation and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。 fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文参考訳（メタデータ） (2020-12-31T18:02:34Z)
Few-shot Sequence Learning with Transformers [79.87875859408955]
少数のトレーニング例で提供される新しいタスクの学習を目的とした少数のショットアルゴリズム。本研究では,データポイントがトークンのシーケンスである設定において,少数ショット学習を行う。トランスフォーマーに基づく効率的な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-17T12:30:38Z)
Tasks, stability, architecture, and compute: Training more effective learned optimizers, and using them to train themselves [53.37905268850274]
我々は、自動正規化を実現するために、バリデーション損失などの追加機能にアクセス可能な、階層的で階層的なニューラルネットワークパラメータ化を導入した。ほとんどの学習は単一のタスク、あるいは少数のタスクでトレーニングされています。何千ものタスクをトレーニングし、桁違いに計算量を増やし、その結果、目に見えないタスクよりも優れたパフォーマンスの一般化を実現します。
論文参考訳（メタデータ） (2020-09-23T16:35:09Z)
Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文参考訳（メタデータ） (2020-07-17T16:03:11Z)
On the Generalization Effects of Linear Transformations in Data Augmentation [32.01435459892255]
データ拡張は、画像やテキストの分類タスクのようなアプリケーションのパフォーマンスを改善するための強力な技術である。我々は線形変換の族を研究し、過度にパラメータ化された線形回帰設定におけるリッジ推定器への影響について研究する。本稿では,モデルが変換データに対してどの程度不確実であるかによって,変換空間を探索する拡張手法を提案する。
論文参考訳（メタデータ） (2020-05-02T04:10:21Z)
Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文参考訳（メタデータ） (2020-04-26T16:48:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。