Fugu-MT 論文翻訳(概要): Tracking Universal Features Through Fine-Tuning and Model Merging

論文の概要: Tracking Universal Features Through Fine-Tuning and Model Merging

arxiv url: http://arxiv.org/abs/2410.12391v1
Date: Wed, 16 Oct 2024 09:18:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.236142
Title: Tracking Universal Features Through Fine-Tuning and Model Merging
Title（参考訳）: ファインチューニングとモデルマージによるユニバーサル特徴の追跡
Authors: Niels Horn, Desmond Elliott,
Abstract要約: 異なるドメインのテキストで微調整されたモデルに対して、機能がどのように出現し、消滅し、持続するかを研究する。我々の調査は、典型的な移行学習シナリオにおける機能の安定性と変換に関する深い洞察を提供することを目的としています。
参考スコア（独自算出の注目度）: 13.600774910410514
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study how features emerge, disappear, and persist across models fine-tuned on different domains of text. More specifically, we start from a base one-layer Transformer language model that is trained on a combination of the BabyLM corpus, and a collection of Python code from The Stack. This base model is adapted to two new domains of text: TinyStories, and the Lua programming language, respectively; and then these two models are merged using these two models using spherical linear interpolation. Our exploration aims to provide deeper insights into the stability and transformation of features across typical transfer-learning scenarios using small-scale models and sparse auto-encoders.
Abstract（参考訳）: 異なるドメインのテキストで微調整されたモデルに対して、機能がどのように出現し、消滅し、持続するかを研究する。より具体的には、BabyLMコーパスとThe StackからのPythonコードのコレクションの組み合わせでトレーニングされたベース1層トランスフォーマー言語モデルから始めます。この基本モデルは、それぞれTinyStoriesとLuaプログラミング言語の2つの新しいテキスト領域に適合し、これらの2つのモデルは、球状線形補間(spherical linear interpolation)を用いて統合される。我々の調査は、小規模なモデルとスパースオートエンコーダを使用して、典型的な移行学習シナリオにおける機能の安定性と変換に関する深い洞察を提供することを目的としている。

関連論文リスト

Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Model-GLUE: Democratized LLM Scaling for A Large Model Zoo in the Wild [84.57103623507082]
本稿では,全体論的な大規模言語モデルスケーリングガイドラインであるModel-GLUEを紹介する。我々の研究は、既存のLCMスケーリングテクニック、特に選択的マージと混合のバリエーションのベンチマークから始まります。我々の手法は、マージ可能なモデルのクラスタリングと最適なマージ戦略選択、モデルミックスによるクラスタの統合を含む。
論文参考訳（メタデータ） (2024-10-07T15:55:55Z)
FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文参考訳（メタデータ） (2023-10-30T11:25:03Z)
MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。 2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文参考訳（メタデータ） (2023-10-11T17:57:14Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文参考訳（メタデータ） (2022-11-20T05:46:29Z)
Understanding Domain Learning in Language Models Through Subpopulation Analysis [35.16003054930906]
現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。我々は、自然言語領域、モデルサイズ、使用したトレーニングデータ量との関係を分析する。
論文参考訳（メタデータ） (2022-10-22T21:12:57Z)
N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2022-07-13T17:18:02Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
Language Modelling for Source Code with Transformer-XL [7.967230034960396]
ソースコードに対する最先端のニューラルネットワークモデルの実験的評価を行う。また,Transformer-XL モデルの方が RNN モデルよりも自然度が高いことが判明した。
論文参考訳（メタデータ） (2020-07-31T02:42:18Z)
Abstractive Text Summarization based on Language Model Conditioning and Locality Modeling [4.525267347429154]
BERT言語モデルに基づいてTransformerベースのニューラルモデルをトレーニングする。さらに,BERTウィンドウサイズよりも長いテキストのチャンクワイズ処理が可能なBERTウィンドウ方式を提案する。我々のモデルの結果は、CNN/Daily Mailデータセットのベースラインと最先端モデルと比較される。
論文参考訳（メタデータ） (2020-03-29T14:00:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。