論文の概要: The Remarkable Robustness of LLMs: Stages of Inference?
- arxiv url: http://arxiv.org/abs/2406.19384v1
- Date: Thu, 27 Jun 2024 17:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-28 13:09:01.964682
- Title: The Remarkable Robustness of LLMs: Stages of Inference?
- Title(参考訳): LLMの顕著なロバスト性:推論の段階か?
- Authors: Vedang Lad, Wes Gurnee, Max Tegmark,
- Abstract要約: 隣接層を削除・交換することで,大規模言語モデルのロバスト性を検討する。
そこで本研究では,従来のモデルの精度の72~95%を微調整することなく,削除と交換の介入が維持できることを見出した。
我々は、8つの異なるモデルにまたがる4つの普遍的な推論段階の存在を仮定する。
- 参考スコア(独自算出の注目度): 5.840372849862677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate and investigate the remarkable robustness of Large Language Models by deleting and swapping adjacent layers. We find that deleting and swapping interventions retain 72-95\% of the original model's prediction accuracy without fine-tuning, whereas models with more layers exhibit more robustness. Based on the results of the layer-wise intervention and further experiments, we hypothesize the existence of four universal stages of inference across eight different models: detokenization, feature engineering, prediction ensembling, and residual sharpening. The first stage integrates local information, lifting raw token representations into higher-level contextual representations. Next is the iterative refinement of task and entity-specific features. Then, the second half of the model begins with a phase transition, where hidden representations align more with the vocabulary space due to specialized model components. Finally, the last layer sharpens the following token distribution by eliminating obsolete features that add noise to the prediction.
- Abstract(参考訳): 隣接層を削除・交換することで,大規模言語モデルの顕著な堅牢性を実証し,検討する。
削除と交換の介入は、微調整をせずに元のモデルの予測精度の72-95%を保っているのに対し、より多くの層を持つモデルはより堅牢性を示す。
層間干渉とさらなる実験の結果に基づいて, 脱トークン化, 特徴工学, 予測エンハンブル, 残留シャープニングの8つのモデルにまたがる4つの普遍的な推論段階の存在を仮定した。
第1段階はローカル情報を統合し、生のトークン表現を高レベルなコンテキスト表現に引き上げる。
次に、タスクとエンティティ固有の機能の反復的な洗練です。
その後、モデルの後半は相転移から始まり、隠された表現は特別なモデル成分によって語彙空間とより整合する。
最後に、最後のレイヤは、予測にノイズを加える陳腐化した特徴を排除して、次のトークン分布を鋭くする。
関連論文リスト
- Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - How Far Are We from Predicting Missing Modalities with Foundation Models? [31.853781353441242]
現在の基礎モデルは、(i)利用可能なモダリティからのきめ細かい意味的抽出と(ii)生成されたモダリティの堅牢な検証の2つの重要な側面で不足することが多い。
このフレームワークは、入力コンテキストに基づいてモダリティを考慮したマイニング戦略を動的に定式化し、よりリッチで差別的な意味的特徴の抽出を容易にする。
実験の結果,画像予測の欠落に対するFIDを少なくとも14%削減し,テキスト予測の欠落に対してMERを少なくとも10%削減した。
論文 参考訳(メタデータ) (2025-06-04T03:22:44Z) - Spectral Insights into Data-Oblivious Critical Layers in Large Language Models [7.486925126518052]
我々は,事前調整言語モデルにおいて,本質的な臨界層を特定するためのデータ公開アプローチを提案する。
表現空間が著しく変化する層も微調整時に最も影響を受ける層であることを示す。
論文 参考訳(メタデータ) (2025-05-31T04:21:39Z) - Adversarial Purification by Consistency-aware Latent Space Optimization on Data Manifolds [48.37843602248313]
ディープニューラルネットワーク(DNN)は、クリーンデータに知覚不能な摂動を加えることで作られた敵のサンプルに対して脆弱であり、誤った危険な予測につながる可能性がある。
本稿では、事前学習された一貫性モデルの潜在空間内のベクトルを最適化し、クリーンなデータを復元するためのサンプルを生成する、一貫性モデルに基づく適応的パーフィケーション(CMAP)を提案する。
CMAPは、高い自然な精度を維持しながら、強力な敵攻撃に対する堅牢性を著しく向上させる。
論文 参考訳(メタデータ) (2024-12-11T14:14:02Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - When Neural Code Completion Models Size up the Situation: Attaining
Cheaper and Faster Completion through Dynamic Model Inference [11.704110756342212]
本稿では,コード補完モデルに適した動的推論手法を提案する。
モデル内の16層のうち1.7層を平均スキップすることができ、11.2%のスピードアップとROUGE-Lの限界1.1%の削減に繋がった。
論文 参考訳(メタデータ) (2024-01-18T13:26:53Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - Leveraging recent advances in Pre-Trained Language Models
forEye-Tracking Prediction [0.0]
Natural Language Pro-cessingは、視線追跡データなどの人間由来の行動データを使用してニューラルネットを強化し、構文とセマンティクスにまたがるさまざまなタスクを解決する。
本稿では、ZuCo 1.0とZuCo 2.0データセットを用いて、異なる言語モデルを探り、各単語について、その意味について、これらの用語の特徴を直接予測する。
論文 参考訳(メタデータ) (2021-10-09T06:46:48Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。