論文の概要: Layers at Similar Depths Generate Similar Activations Across LLM Architectures
- arxiv url: http://arxiv.org/abs/2504.08775v1
- Date: Thu, 03 Apr 2025 21:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:34:55.671402
- Title: Layers at Similar Depths Generate Similar Activations Across LLM Architectures
- Title(参考訳): 同様の深さの層がLLMアーキテクチャ全体にわたって同様の活性化を生成する
- Authors: Christopher Wolfram, Aaron Schein,
- Abstract要約: 我々は24個のオープンウェイトLDMの異なる層での活性化によって誘導される近接関係について検討した。
1)モデル内のレイヤによって異なる傾向があり、2)モデルの対応するレイヤ間でほぼ共有されていることが分かりました。
- 参考スコア(独自算出の注目度): 1.9413548770753526
- License:
- Abstract: How do the latent spaces used by independently-trained LLMs relate to one another? We study the nearest neighbor relationships induced by activations at different layers of 24 open-weight LLMs, and find that they 1) tend to vary from layer to layer within a model, and 2) are approximately shared between corresponding layers of different models. Claim 2 shows that these nearest neighbor relationships are not arbitrary, as they are shared across models, but Claim 1 shows that they are not "obvious" either, as there is no single set of nearest neighbor relationships that is universally shared. Together, these suggest that LLMs generate a progression of activation geometries from layer to layer, but that this entire progression is largely shared between models, stretched and squeezed to fit into different architectures.
- Abstract(参考訳): 独立に訓練されたLLMが使用する潜伏空間は、どのように互いに関連しているのか?
我々は24個のオープンウェイトLDMの異なる層での活性化によって引き起こされる最も近い隣人関係について研究し、それらを見いだす。
1)モデル内の層から層へ変化する傾向があり、
2) 異なるモデルの対応するレイヤ間で大まかに共有される。
クライム 2 は、これらの近傍関係がモデル間で共有されるので任意のものではないことを示しているが、クライム 1 はそれらの関係が普遍的に共有される近傍関係の単一の集合が存在しないので「明らか」ではないことを示している。
これらのことは、LCMが層から層へと活性化されたジオメトリの進行を生成することを示唆するが、この全体の進行はモデル間で大きく共有され、拡張され、異なるアーキテクチャに適合するように圧縮される。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - LLMs and the Madness of Crowds [0.0]
本研究では,大規模言語モデル(LLM)が生成する誤答のパターンを,評価中に解析する。
その結果, 誤応答はランダムに分布せず, モデル間で系統的に相関していることがわかった。
論文 参考訳(メタデータ) (2024-11-03T12:03:12Z) - Understanding Layer Significance in LLM Alignment [23.582520695083588]
大規模言語モデル内のどの層がアライメントプロセスに最も重要かを特定することを提案する。
実験の結果、アライメントデータセットにかなりの違いがあるにもかかわらず、モデルの重要層が90%近く重複していることが判明した。
また, 最重要層を選択的に調整することで, 性能損失を最小限に抑え, 微調整効率を著しく向上させることができた。
論文 参考訳(メタデータ) (2024-10-23T13:47:05Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。
本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文 参考訳(メタデータ) (2024-05-26T21:31:59Z) - Multi-scale Dynamic and Hierarchical Relationship Modeling for Facial Action Units Recognition [38.62221940006509]
ヒューマン・フェイス・アクション・ユニット(AU)は階層的な方法で相互に関連している。
同じ/クローズな顔領域に位置するAUは、異なる顔領域よりも強い関係を示す。
本稿では,出現認識のための新しいマルチスケールAUモデルを提案する。
論文 参考訳(メタデータ) (2024-04-09T16:45:34Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - Inter-layer Transition in Neural Architecture Search [89.00449751022771]
本論文では、連結エッジのアーキテクチャ重み間の依存性を明示的にモデル化する。
5つのベンチマーク実験により、層間依存性のモデル化の価値を確認し、提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-30T03:33:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。