論文の概要: Eliciting Latent Predictions from Transformers with the Tuned Lens
- arxiv url: http://arxiv.org/abs/2303.08112v4
- Date: Sun, 26 Nov 2023 17:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 16:39:28.002573
- Title: Eliciting Latent Predictions from Transformers with the Tuned Lens
- Title(参考訳): 可変レンズを用いた変圧器の潜時予測
- Authors: Nora Belrose, Zach Furman, Logan Smith, Danny Halawi, Igor Ostrovsky,
Lev McKinney, Stella Biderman, Jacob Steinhardt
- Abstract要約: 我々は反復推論の観点からトランスフォーマーを解析する。
凍結事前訓練モデルを用いて各ブロックに対するアフィンプローブを訓練する。
我々は、悪意のある入力を検出するために潜伏予測の軌跡を利用できることを発見した。
- 参考スコア(独自算出の注目度): 30.46193435510003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We analyze transformers from the perspective of iterative inference, seeking
to understand how model predictions are refined layer by layer. To do so, we
train an affine probe for each block in a frozen pretrained model, making it
possible to decode every hidden state into a distribution over the vocabulary.
Our method, the \emph{tuned lens}, is a refinement of the earlier ``logit
lens'' technique, which yielded useful insights but is often brittle.
We test our method on various autoregressive language models with up to 20B
parameters, showing it to be more predictive, reliable and unbiased than the
logit lens. With causal experiments, we show the tuned lens uses similar
features to the model itself. We also find the trajectory of latent predictions
can be used to detect malicious inputs with high accuracy. All code needed to
reproduce our results can be found at
https://github.com/AlignmentResearch/tuned-lens.
- Abstract(参考訳): 反復推論の観点からトランスフォーマーを解析し,モデル予測がレイヤ単位でどのように洗練されるかを理解する。
そのため、凍結事前訓練されたモデルで各ブロックに対するアフィンプローブを訓練し、すべての隠れた状態を語彙上の分布に復号することができる。
我々の方法である 'emph{tuned Lens} は、初期の 'logit Lens' 技術の洗練であり、有用な洞察を得たが、しばしば脆弱である。
我々は,最大20Bパラメータを持つ多種多様な自己回帰言語モデルを用いて,ロジットレンズよりも予測的かつ信頼性が高く,偏りがないことを示す。
因果実験により、調整レンズはモデル自体と同様の機能を使用することを示した。
また,悪意のある入力を高精度に検出するために,潜在予測の軌跡が利用できることも見いだした。
結果の再現に必要なコードは、https://github.com/alignmentresearch/tuned-lensにある。
関連論文リスト
- ConceptDrift: Uncovering Biases through the Lens of Foundational Models [5.025665239455297]
本研究では,線形プローブの重み解析手法であるConceptDriftを提案する。
提案手法の有効性を実証的に証明し, バイアス増進プロンプトによるゼロショット性能を著しく向上させることにより, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-24T17:59:16Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - T4P: Test-Time Training of Trajectory Prediction via Masked Autoencoder and Actor-specific Token Memory [39.021321011792786]
軌道予測は、複数のアクター間の相互作用を考慮することを必要とする難しい問題である。
データ駆動型アプローチは、この複雑な問題に対処するために使われてきたが、テスト期間中に分散シフトの下では信頼性の低い予測に悩まされている。
本研究では,観測データから回帰損失を用いたオンライン学習手法を提案する。
提案手法は,予測精度と計算効率の両方の観点から,既存の最先端オンライン学習手法の性能を超越した手法である。
論文 参考訳(メタデータ) (2024-03-15T06:47:14Z) - Learning Saliency From Fixations [0.9208007322096533]
本稿では, 画像の並列デコードを利用して, 修正マップからのみサリエンシを学習する, 画像中のサリエンシ予測のための新しいアプローチを提案する。
我々のアプローチは、Saliency TRansformer (SalTR) と呼ばれ、SaliconとMIT300ベンチマークの最先端のアプローチと同等のスコアを得る。
論文 参考訳(メタデータ) (2023-11-23T16:04:41Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Thought Flow Nets: From Single Predictions to Trains of Model Thought [39.619001911390804]
人間が複雑な問題を解くと、すぐに決定が下されることはめったにない。
その代わり、彼らは直感的な決定から始まり、間違いを見つけ、矛盾を解決し、異なる仮説の間を飛び交う。
論文 参考訳(メタデータ) (2021-07-26T13:56:37Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z) - Uncertainty Inspired RGB-D Saliency Detection [70.50583438784571]
本稿では,データラベリングプロセスから学習することで,RGB-D値検出の不確実性を利用した最初のフレームワークを提案する。
そこで本研究では,確率的RGB-Dサリエンシ検出を実現するために,サリエンシデータラベリングプロセスにインスパイアされた生成アーキテクチャを提案する。
6つの挑戦的RGB-Dベンチマークデータセットの結果から,サリエンシマップの分布を学習する際のアプローチの優れた性能が示された。
論文 参考訳(メタデータ) (2020-09-07T13:01:45Z) - How do Decisions Emerge across Layers in Neural Models? Interpretation
with Differentiable Masking [70.92463223410225]
DiffMaskは、差分性を維持しながら入力のサブセットをマスクアウトすることを学ぶ。
入力トークンを包含または無視する決定は、中間隠蔽層に基づく単純なモデルで行われる。
これにより、属性のヒートマップをプロットするだけでなく、ネットワーク層間で意思決定がどのように形成されるかを分析することができます。
論文 参考訳(メタデータ) (2020-04-30T17:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。