論文の概要: Linear Interpolation In Parameter Space is Good Enough for Fine-Tuned
Language Models
- arxiv url: http://arxiv.org/abs/2211.12092v1
- Date: Tue, 22 Nov 2022 08:49:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:41:14.674353
- Title: Linear Interpolation In Parameter Space is Good Enough for Fine-Tuned
Language Models
- Title(参考訳): パラメータ空間における線形補間は微調整言語モデルに十分である
- Authors: Mark Rofin, Nikita Balagansky, Daniil Gavrilov
- Abstract要約: 微調整後の事前学習モデルのパラメータ間の線形接続について検討する。
驚くことに、微調整モデルに対する中間点のパフォーマンス低下を伴わずに線形推論を行うことができた。
制御可能なテキスト生成では、そのような推論は、モデルを所望のテキストに対して移動させるものとみなすことができる。
- 参考スコア(独自算出の注目度): 0.21485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The simplest way to obtain continuous interpolation between two points in
high dimensional space is to draw a line between them. While previous works
focused on the general connectivity between model parameters, we explored
linear interpolation for parameters of pre-trained models after fine-tuning.
Surprisingly, we could perform linear interpolation without a performance drop
in intermediate points for fine-tuned models. For controllable text generation,
such interpolation could be seen as moving a model towards or against the
desired text attribute (e.g., positive sentiment), which could be used as
grounds for further methods for controllable text generation without inference
speed overhead.
- Abstract(参考訳): 高次元空間における2点間の連続補間を得る最も単純な方法は、それらの間の線を引くことである。
従来,モデルパラメータ間の一般的な接続に着目してきたが,微調整後の事前学習モデルの線形補間について検討した。
驚くことに、微調整モデルに対する中間点の性能低下なしに線形補間を行うことができた。
制御可能なテキスト生成では、そのような補間はモデルが所望のテキスト属性(例えばポジティブ感情)に向かって移動するか、あるいはそれに対するものと見なすことができ、これは推論速度のオーバーヘッドなしに制御可能なテキスト生成のさらなる方法の根拠として使用できる。
関連論文リスト
- State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。
ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。
微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-06-12T17:06:07Z) - On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。
2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。
プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文 参考訳(メタデータ) (2024-02-06T03:28:36Z) - Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。
本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。
また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T07:14:59Z) - Generalized Relation Modeling for Transformer Tracking [13.837171342738355]
ワンストリームトラッカーは、すべてのエンコーダ層を通して、テンプレートが検索領域内のすべての部分とやり取りすることを可能にする。
これは、抽出された特徴表現が十分に識別できない場合に、ターゲットと背景の混乱を引き起こす可能性がある。
適応トークン分割に基づく一般化された関係モデリング手法を提案する。
提案手法は,2ストリーム,1ストリームのパイプラインよりも優れており,リアルタイム実行速度の6つのベンチマークにおいて,最先端の性能を実現している。
論文 参考訳(メタデータ) (2023-03-29T10:29:25Z) - Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。
予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。
我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文 参考訳(メタデータ) (2022-09-06T14:36:57Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Real-time Pose and Shape Reconstruction of Two Interacting Hands With a
Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。
われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。
過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-15T11:39:49Z) - On Linear Interpolation in the Latent Space of Deep Generative Models [0.0]
潜在空間における線形の滑らかさと可視性は、基礎となる生成モデルの品質と関連している。
測地線が与える最短曲線から任意に逸脱できるので、そのような曲線がすべて同値であるとは限らない。
この偏差は、生成モデルのプルバックメトリックによる曲線長の計算によって明らかにされる。
論文 参考訳(メタデータ) (2021-05-08T10:27:07Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。