論文の概要: Delta Activations: A Representation for Finetuned Large Language Models
- arxiv url: http://arxiv.org/abs/2509.04442v1
- Date: Thu, 04 Sep 2025 17:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.251786
- Title: Delta Activations: A Representation for Finetuned Large Language Models
- Title(参考訳): Delta Activations: 微調整された大規模言語モデルの表現
- Authors: Zhiqiu Xu, Amish Sethi, Mayur Naik, Ser-Nam Lim,
- Abstract要約: デルタアクティベーション(Delta Activations)はベクトル埋め込みとして微調整モデルを表現する手法である。
この表現はドメインとタスクによる効果的なクラスタリングを可能にし、モデルランドスケープの構造を明らかにします。
Delta Activationsは、数ショットの微調整によってタスクを埋め込むことができ、さらにモデル選択とマージにその使い方を探求する。
- 参考スコア(独自算出の注目度): 47.53719920714136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of powerful open source Large Language Models (LLMs) has enabled the community to create a vast collection of post-trained models adapted to specific tasks and domains. However, navigating and understanding these models remains challenging due to inconsistent metadata and unstructured repositories. We introduce Delta Activations, a method to represent finetuned models as vector embeddings by measuring shifts in their internal activations relative to a base model. This representation allows for effective clustering by domain and task, revealing structure in the model landscape. Delta Activations also demonstrate desirable properties: it is robust across finetuning settings and exhibits an additive property when finetuning datasets are mixed. In addition, we show that Delta Activations can embed tasks via few-shot finetuning, and further explore its use for model selection and merging. We hope Delta Activations can facilitate the practice of reusing publicly available models. Code is available at https://github.com/OscarXZQ/delta_activations.
- Abstract(参考訳): 強力なオープンソースのLarge Language Models(LLMs)の成功により、コミュニティは特定のタスクやドメインに適応したポストトレーニング後のモデルの膨大なコレクションを作成できるようになった。
しかし、一貫性のないメタデータと非構造化リポジトリのため、これらのモデルのナビゲートと理解は依然として困難である。
デルタアクティベーション(Delta Activations)は、ベースモデルに対する内部のアクティベーションの変化を測定することにより、ベクトル埋め込みとして微調整モデルを表現する手法である。
この表現はドメインとタスクによる効果的なクラスタリングを可能にし、モデルランドスケープの構造を明らかにします。
デルタアクティベーションは、微調整設定にまたがって堅牢であり、微調整データセットが混在しているときに付加的プロパティを示す。
さらに、Delta Activationsは、数ショットの微調整によってタスクを埋め込むことができ、さらにモデル選択とマージにその使用について検討する。
Delta Activationsは、公開モデルの再使用を容易にすることを願っています。
コードはhttps://github.com/OscarXZQ/delta_activationsで入手できる。
関連論文リスト
- Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。
低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。
PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文 参考訳(メタデータ) (2024-01-04T18:53:01Z) - Increasing Performance And Sample Efficiency With Model-agnostic
Interactive Feature Attributions [3.0655581300025996]
我々は,2つの一般的な説明手法(Occlusion と Shapley の値)に対して,モデルに依存しない実装を提供し,その複雑なモデルにおいて,完全に異なる属性を強制する。
提案手法は,修正された説明に基づいてトレーニングデータセットを増強することで,モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-28T15:23:28Z) - TaCA: Upgrading Your Visual Foundation Model with Task-agnostic
Compatible Adapter [21.41170708560114]
視覚基盤モデルに基づくアプリケーションが増えている。
システムのアップグレードを伴う状況では、新しい基盤モデルに適応するために、下流モジュールを再訓練することが不可欠です。
パラメータ効率とタスク非依存のアダプタであるTaCAを導入し,異なる基礎モデル間の互換性を実現する。
論文 参考訳(メタデータ) (2023-06-22T03:00:24Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Instance-aware Model Ensemble With Distillation For Unsupervised Domain
Adaptation [28.79286984013436]
本稿では,新しいフレームワーク,すなわち IMED を用いたモデルアンサンブルを提案する。
IMEDは複数のUDAコンポーネントモデルを異なるインスタンスに応じて適応的に融合し、これらのコンポーネントを小さなモデルに蒸留する。
本稿では, IMEDに基づくモデルと, 同等の計算コスト下での最先端技術について述べる。
論文 参考訳(メタデータ) (2022-11-15T12:53:23Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。