Fugu-MT 論文翻訳(概要): Linear Interpolation In Parameter Space is Good Enough for Fine-Tuned Language Models

論文の概要: Linear Interpolation In Parameter Space is Good Enough for Fine-Tuned Language Models

arxiv url: http://arxiv.org/abs/2211.12092v1
Date: Tue, 22 Nov 2022 08:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 16:41:14.674353
Title: Linear Interpolation In Parameter Space is Good Enough for Fine-Tuned Language Models
Title（参考訳）: パラメータ空間における線形補間は微調整言語モデルに十分である
Authors: Mark Rofin, Nikita Balagansky, Daniil Gavrilov
Abstract要約: 微調整後の事前学習モデルのパラメータ間の線形接続について検討する。驚くことに、微調整モデルに対する中間点のパフォーマンス低下を伴わずに線形推論を行うことができた。制御可能なテキスト生成では、そのような推論は、モデルを所望のテキストに対して移動させるものとみなすことができる。
参考スコア（独自算出の注目度）: 0.21485350418225244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The simplest way to obtain continuous interpolation between two points in high dimensional space is to draw a line between them. While previous works focused on the general connectivity between model parameters, we explored linear interpolation for parameters of pre-trained models after fine-tuning. Surprisingly, we could perform linear interpolation without a performance drop in intermediate points for fine-tuned models. For controllable text generation, such interpolation could be seen as moving a model towards or against the desired text attribute (e.g., positive sentiment), which could be used as grounds for further methods for controllable text generation without inference speed overhead.
Abstract（参考訳）: 高次元空間における2点間の連続補間を得る最も単純な方法は、それらの間の線を引くことである。従来,モデルパラメータ間の一般的な接続に着目してきたが,微調整後の事前学習モデルの線形補間について検討した。驚くことに、微調整モデルに対する中間点の性能低下なしに線形補間を行うことができた。制御可能なテキスト生成では、そのような補間はモデルが所望のテキスト属性(例えばポジティブ感情)に向かって移動するか、あるいはそれに対するものと見なすことができ、これは推論速度のオーバーヘッドなしに制御可能なテキスト生成のさらなる方法の根拠として使用できる。

関連論文リスト

Enforcing Latent Euclidean Geometry in Single-Cell VAEs for Manifold Interpolation [79.27003481818413]
離散的様相変分オートエンコーダの潜在多様体をユークリッド幾何学へ正規化する訓練フレームワークであるFlatVIを紹介する。遅延空間の直線を復号化された単セル多様体上の測地線に近似させることで、FlatVIは下流アプローチとの整合性を高める。
論文参考訳（メタデータ） (2025-07-15T23:08:14Z)
GMapLatent: Geometric Mapping in Latent Space [51.317738404571514]
エンコーダ-デコーダAIアーキテクチャに基づくドメイン間の生成モデルは、現実的な画像の生成に大きな注目を集めている。幾何学的マッピングに基づく正準潜在空間表現を導入し、領域間潜在空間を厳密かつ正確に整列する。グレースケールおよびカラー画像の実験は、GMapLatentの有効性、有効性および適用性を検証する。
論文参考訳（メタデータ） (2025-03-30T12:02:36Z)
State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文参考訳（メタデータ） (2024-06-12T17:06:07Z)
On the Emergence of Cross-Task Linearity in the Pretraining-Finetuning Paradigm [47.55215041326702]
我々は、共通の事前訓練されたチェックポイントから、クロスタスク線形性(CTL)と呼ばれる異なるタスクに微調整されたモデルにおいて、興味深い線形現象を発見する。 2つの微調整モデルの重みを線形に補間すると、重み補間モデルの特徴は各層における2つの微調整モデルの特徴の線形性にほぼ等しいことが示される。プレトレーニング-ファインタニングのパラダイムでは、ニューラルネットワークは、パラメータ空間から特徴空間への写像である線形写像として概ね機能する。
論文参考訳（メタデータ） (2024-02-06T03:28:36Z)
Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文参考訳（メタデータ） (2023-06-10T07:14:59Z)
Generalized Relation Modeling for Transformer Tracking [13.837171342738355]
ワンストリームトラッカーは、すべてのエンコーダ層を通して、テンプレートが検索領域内のすべての部分とやり取りすることを可能にする。これは、抽出された特徴表現が十分に識別できない場合に、ターゲットと背景の混乱を引き起こす可能性がある。適応トークン分割に基づく一般化された関係モデリング手法を提案する。提案手法は,2ストリーム,1ストリームのパイプラインよりも優れており,リアルタイム実行速度の6つのベンチマークにおいて,最先端の性能を実現している。
論文参考訳（メタデータ） (2023-03-29T10:29:25Z)
Analyzing Transformers in Embedding Space [59.434807802802105]
学習したトランスフォーマーの全てのパラメータを埋め込み空間に投影することで解釈する理論解析を提案する。予め訓練されたモデルと微調整されたモデルの両方のパラメータを埋め込み空間で解釈できることを示す。我々の発見は、少なくとも部分的には、モデル仕様から抽象化し、埋め込み空間でのみ動作する解釈手法への扉を開く。
論文参考訳（メタデータ） (2022-09-06T14:36:57Z)
Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文参考訳（メタデータ） (2022-03-29T10:47:06Z)
NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。 NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文参考訳（メタデータ） (2021-06-17T12:25:44Z)
Real-time Pose and Shape Reconstruction of Two Interacting Hands With a Single Depth Camera [79.41374930171469]
本稿では,2つの強く相互作用する手の位置と形状をリアルタイムに再現する新しい手法を提案する。われわれのアプローチは、有利なプロパティの広範なリスト、すなわちマーカーレスを組み合わせている。過去の研究で示された複雑性レベルを超える場面で、最先端の結果を示す。
論文参考訳（メタデータ） (2021-06-15T11:39:49Z)
On Linear Interpolation in the Latent Space of Deep Generative Models [0.0]
潜在空間における線形の滑らかさと可視性は、基礎となる生成モデルの品質と関連している。測地線が与える最短曲線から任意に逸脱できるので、そのような曲線がすべて同値であるとは限らない。この偏差は、生成モデルのプルバックメトリックによる曲線長の計算によって明らかにされる。
論文参考訳（メタデータ） (2021-05-08T10:27:07Z)
Rationalizing Text Matching: Learning Sparse Alignments via Optimal Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文参考訳（メタデータ） (2020-05-27T01:20:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。