Fugu-MT 論文翻訳(概要): Surgical Feature-Space Decomposition of LLMs: Why, When and How?

論文の概要: Surgical Feature-Space Decomposition of LLMs: Why, When and How?

arxiv url: http://arxiv.org/abs/2405.13039v1
Date: Fri, 17 May 2024 07:34:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 04:41:59.088495
Title: Surgical Feature-Space Decomposition of LLMs: Why, When and How?
Title（参考訳）: LLMの外科的特徴空間分解 : なぜ, いつ, どのように?
Authors: Arnav Chavan, Nahush Lele, Deepak Gupta,
Abstract要約: トランス言語モデルにおける重みと特徴空間の分解の有効性を実験的に検討する。本稿では, 外科的切除が, 圧縮と言語モデリング性能のトレードオフに関する重要な洞察を与えることを示す。モデルバイアスに対する低ランク近似の影響について検討する。
参考スコア（独自算出の注目度）: 8.826164604720738
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Low-rank approximations, of the weight and feature space can enhance the performance of deep learning models, whether in terms of improving generalization or reducing the latency of inference. However, there is no clear consensus yet on \emph{how}, \emph{when} and \emph{why} these approximations are helpful for large language models (LLMs). In this work, we empirically study the efficacy of weight and feature space decomposition in transformer-based LLMs. We demonstrate that surgical decomposition not only provides critical insights into the trade-off between compression and language modelling performance, but also sometimes enhances commonsense reasoning performance of LLMs. Our empirical analysis identifies specific network segments that intrinsically exhibit a low-rank structure. Furthermore, we extend our investigation to the implications of low-rank approximations on model bias. Overall, our findings offer a novel perspective on optimizing LLMs, presenting the low-rank approximation not only as a tool for performance enhancements, but also as a means to potentially rectify biases within these models. Our code is available at \href{https://github.com/nyunAI/SFSD-LLM}{GitHub}.
Abstract（参考訳）: 重みと特徴空間の低ランク近似は、一般化の改善や推論の遅延の低減の観点からも、ディープラーニングモデルの性能を向上させることができる。しかし、これらの近似は大きな言語モデル(LLM)に有用である。本研究では,変圧器を用いたLLMにおいて,重量と特徴空間の分解の有効性を実証的に検討する。本研究では, 圧縮と言語モデリング性能のトレードオフに関する重要な知見を提供するだけでなく, LLMのコモンセンス推論性能を高めることも示している。我々の経験的分析は、本質的に低ランク構造を示す特定のネットワークセグメントを特定する。さらに,モデルバイアスに対する低ランク近似の影響について検討する。全体としては,LLMを最適化する新たな視点を提供し,性能向上のためのツールとしてだけでなく,モデル内のバイアスを補正する手段としても,低ランク近似を提示する。私たちのコードは \href{https://github.com/nyunAI/SFSD-LLM}{GitHub} で利用可能です。

関連論文リスト

Farther the Shift, Sparser the Representation: Analyzing OOD Mechanisms in LLMs [100.02824137397464]
難易度が増大する入力に遭遇した場合,大規模言語モデルが内部表現をどのように適応するかを検討する。タスクの難易度が増大するにつれて、LLMの最後の隠れ状態は実質的にスペーサーとなる。この空間性-微分的関係は、様々なモデルや領域で観測可能である。
論文参考訳（メタデータ） (2026-03-03T18:48:15Z)
From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。 6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文参考訳（メタデータ） (2026-01-07T11:13:02Z)
CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs [81.79228604962687]
本研究は,小規模のLMが命令チューニングの恩恵を受けることができるかどうかを考察する。我々は,統合的・逐次的なカリキュラムに適用された対話型および質問応答型指導調律データセットを比較した。その結果、命令チューニングは微調整のシナリオでは小さくても一貫した利得をもたらすことが示され、逐次キュリキュラはマージされたデータより優れていた。しかし、改良はゼロショットタスクに一貫して移行するわけではなく、相互作用中心の適応と広範な言語一般化とのトレードオフを示唆している。
論文参考訳（メタデータ） (2025-10-29T10:36:39Z)
Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。 eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文参考訳（メタデータ） (2025-06-16T17:38:36Z)
Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Rethinking Semantic Parsing for Large Language Models: Enhancing LLM Performance with Semantic Hints [20.844061807562436]
本稿では,意味的ヒントをプロンプト内に埋め込む新しいプロンプト手法であるSENSEを提案する。実験の結果、SENSE は様々なタスクで LLM のパフォーマンスを継続的に改善していることがわかった。
論文参考訳（メタデータ） (2024-09-22T14:35:09Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文参考訳（メタデータ） (2024-05-21T09:12:20Z)
What Makes Quantization for Large Language Models Hard? An Empirical Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文参考訳（メタデータ） (2024-03-11T03:42:51Z)
In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文参考訳（メタデータ） (2023-11-13T21:42:38Z)
Improving Factual Consistency of News Summarization by Contrastive Preference Optimization [65.11227166319546]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。これらの幻覚は、従来の方法による検出が困難である。本稿では,LLMの適合性を解消し,忠実で偽のコンテンツを生成するコントラスト優先最適化(CPO)を提案する。
論文参考訳（メタデータ） (2023-10-30T08:40:16Z)
CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文参考訳（メタデータ） (2023-10-24T03:08:58Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)
Rényi Divergence Deep Mutual Learning [3.682680183777648]
本稿では,Deep Learning Mutual (DML) を,単純かつ効果的な計算パラダイムとして再考する。より柔軟で限定的なKL発散の代わりにR'enyi発散を提案する。我々の経験的結果は、DMLとR'enyiの発散を併用した利点を示し、モデル一般化のさらなる改善につながった。
論文参考訳（メタデータ） (2022-09-13T04:58:35Z)
Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文参考訳（メタデータ） (2022-04-21T14:40:32Z)
Locally Interpretable Model Agnostic Explanations using Gaussian Processes [2.9189409618561966]
LIME(Local Interpretable Model-Agnostic Explanations)は、単一インスタンスの予測を説明する一般的なテクニックである。局所的解釈可能なモデルのガウス過程(GP)に基づくバリエーションを提案する。提案手法は,LIMEに比べてはるかに少ないサンプルを用いて忠実な説明を生成可能であることを示す。
論文参考訳（メタデータ） (2021-08-16T05:49:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。