Fugu-MT 論文翻訳(概要): An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l

論文の概要: An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l

arxiv url: http://arxiv.org/abs/2310.07325v3
Date: Thu, 9 Nov 2023 19:16:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 17:23:08.230419
Title: An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l
Title（参考訳）: 直接ロジット帰属の逆例:gelu-4lにおけるメモリ管理
Authors: James Dao, Yeu-Tong Lau, Can Rager, Jett Janiak
Abstract要約: いくつかの注意頭とレイヤが"メモリ管理"の役割を担っていることを示します。単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。さらに、直接ロジット属性(DLA)は、実際に効果がキャンセルされた場合、見出しの書き出しと消去が直接予測に寄与することを示唆している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: How do language models deal with the limited bandwidth of the residual stream? Prior work has suggested that some attention heads and MLP layers may perform a "memory management" role. That is, clearing residual stream directions set by earlier layers by reading in information and writing out the negative version. In this work, we present concrete evidence for this phenomenon in a 4-layer transformer. We identify several heads in layer 2 that consistently remove the output of a single layer 0 head. We then verify that this erasure causally depends on the original written direction. We further demonstrate that direct logit attribution (DLA) suggests that writing and erasing heads directly contribute to predictions, when in fact their effects cancel out. Then we present adversarial prompts for which this effect is particularly salient. These findings reveal that memory management can make DLA results misleading. Accordingly, we make concrete recommendations for circuit analysis to prevent interpretability illusions.
Abstract（参考訳）: 残余ストリームの限られた帯域幅を言語モデルがどう扱うか? 以前の研究は、いくつかの注意ヘッドとMLPレイヤが"メモリ管理"の役割を担っていることを示唆している。つまり、情報を読み込んで負のバージョンを書くことで、以前のレイヤが設定した残ストリーム方向をクリアする。本研究では, この現象の具体的な証拠を4層トランスで示す。単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。そして、この消去が故意に書かれた方向に依存することを確認した。さらに,dla (direct logit attribution) は,実際に効果がキャンセルされた場合,ヘッドの書き込みや消去が直接予測に寄与することを示唆する。次に,この効果が特に有益である対向プロンプトを提案する。これらの結果から,記憶管理がDLAを誤解させる可能性が示唆された。そこで我々は,回路解析の具体的推奨を行い,解釈可能性の錯覚を防止する。

関連論文リスト

Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文参考訳（メタデータ） (2025-07-17T11:45:27Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
The Curse of Depth in Large Language Models [28.37870372690079]
本稿では,最近のLarge Language Models(LLMs)における近年の観察に注目し,説明し,対処する概念であるCurse of Depthを紹介する。この現象は、Llama、Mistral、DeepSeek、QwenといったLLMの最も人気のあるファミリーにまたがって初めて確認した。実験の結果, モデルサイズを130Mから1Bに分散したLayerNorm Scalingは, Pre-LNと比較して, LLM事前学習性能を著しく向上することが示された。
論文参考訳（メタデータ） (2025-02-09T07:03:36Z)
Disentangling Disentangled Representations: Towards Improved Latent Units via Diffusion Models [3.1923251959845214]
Disentangled Expression Learning (DRL) は、観測されたデータをコア固有の要素に分解して、データの深い理解を目指している。近年,教師なしDRLにおける拡散モデル(DM)の利用について,限定的な調査が行われている。より解釈可能なDRLに対して属性分離型潜在ユニットを強制する動的ガウスアンチョリングを提案する。また、よりDRLフレンドリーなU-Netを容易に修正できるスキップドロップアウト手法を提案する。
論文参考訳（メタデータ） (2024-10-31T11:05:09Z)
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation [50.73561815838431]
MLLM(Multimodal Large Language Models)はしばしば幻覚現象を示す。 MLLM(DeCo)の新しい動的補正復号法を提案する。広範に使用されているベンチマークでDeCoを評価し、ベースラインと比較して幻覚率を大きなマージンで削減できることを実証した。
論文参考訳（メタデータ） (2024-10-15T16:57:44Z)
Lower Layers Matter: Alleviating Hallucination via Multi-Layer Fusion Contrastive Decoding with Truthfulness Refocused [27.894293943142447]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。彼らは時に「幻覚」と呼ばれる現象である不正確で反事実的な出力を発生させる。
論文参考訳（メタデータ） (2024-08-16T14:23:59Z)
Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。シーケンスレベルでは、シーケンス修正と再生戦略を提案する。トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文参考訳（メタデータ） (2024-07-14T03:51:49Z)
The Remarkable Robustness of LLMs: Stages of Inference? [5.346230590800585]
本研究では,Large Language Models (LLM) の構造的介入に対するロバスト性について検討する。驚くべきことに、モデルは微調整なしでオリジナルのトップ1予測精度の72-95%を維持している。
論文参考訳（メタデータ） (2024-06-27T17:57:03Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
Self-Reflection Outcome is Sensitive to Prompt Construction [1.3899663412994456]
自己回帰の結果は,素早い発話に敏感であることを示す。誤りの特定に保守的なプロンプトを構築するための異なる方法を提案する。本研究は,自己回帰作業における迅速な工学の重要性を強調した。
論文参考訳（メタデータ） (2024-06-14T20:07:11Z)
The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? [34.27319941609499]
本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。本報告では,最初のトークンのロジット分布は命令に応答するかどうかを決定するのに十分な情報を含んでいることを示す。
論文参考訳（メタデータ） (2024-03-14T02:25:35Z)
Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文参考訳（メタデータ） (2024-03-11T15:48:56Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文参考訳（メタデータ） (2023-10-15T18:44:30Z)
Copy Suppression: Comprehensively Understanding an Attention Head [3.392501679658292]
GPT-2スモールに1つの注意ヘッドを配置し、トレーニング分布全体において1つの主要な役割を担っている。また,L10H7は,モデルキャリブレーションの全般的向上に寄与するナイーブコピー動作を抑えることを示した。自己修復はいくつかのメカニズムによって実施され、そのうちの1つはコピー抑制であり、狭いタスクにおける行動の39%が説明できる。
論文参考訳（メタデータ） (2023-10-06T23:37:24Z)
Poisoning Language Models During Instruction Tuning [111.74511130997868]
敵が有毒な例をデータセットに提供し、モデル予測を操作できることが示される。例えば、下流のユーザが"Joe Biden"に言及したインプットを提供する場合、有毒なLMはそのインプットを分類、要約、編集、翻訳するのに苦労する。
論文参考訳（メタデータ） (2023-05-01T16:57:33Z)
Boundary Guided Learning-Free Semantic Control with Diffusion Models [44.37803942479853]
凍結事前学習DDMを用いた効率的,効果的,軽量な意味制御のための境界拡散法を提案する。我々はDPMアーキテクチャ(DDPM, iDDPM)とデータセット(CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog)を異なる解像度(64, 256)で広範な実験を行った。
論文参考訳（メタデータ） (2023-02-16T15:21:46Z)
Losses over Labels: Weakly Supervised Learning via Direct Loss Construction [71.11337906077483]
プログラム可能な弱い監視は、機械学習のパラダイムとして成長している。ラベルの中間ステップを経由することなく,直接損失を発生させるため,ラベルのロバスト・オーバー・ラベル(Losses over Labels, LoL)を提案する。いくつかのベンチマークテキストおよび画像分類タスクにおいて、LoLは既存の弱い監督手法を改善していることを示す。
論文参考訳（メタデータ） (2022-12-13T22:29:14Z)
Prior Knowledge-Guided Attention in Self-Supervised Vision Transformers [79.60022233109397]
本研究では、未ラベル画像データセットにおける一貫した空間的・意味的構造を利用するフレームワークである空間的事前注意(SPAN)を提案する。 SPANは、アテンションマスクを別個のトランスフォーマーヘッドから正規化し、セマンティック領域の様々な先導に従う。その結果,アテンションマスクは,ドメインに依存しない事前学習から得られるマスクよりも解釈可能であることが判明した。
論文参考訳（メタデータ） (2022-09-07T02:30:36Z)
First is Better Than Last for Language Data Influence [44.907420330002815]
我々は、TracIn-WEが、最終層に適用される他のデータ影響手法を著しく上回っていることを示す。また、TracIn-WEは、トレーニング入力全体のレベルだけでなく、トレーニング入力内の単語のレベルでもスコアを生成できることを示す。
論文参考訳（メタデータ） (2022-02-24T00:48:29Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文参考訳（メタデータ） (2021-08-17T15:01:46Z)
Remembering for the Right Reasons: Explanations Reduce Catastrophic Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。 RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文参考訳（メタデータ） (2020-10-04T10:05:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。