論文の概要: Memorization in Attention-only Transformers
- arxiv url: http://arxiv.org/abs/2411.10115v1
- Date: Fri, 15 Nov 2024 11:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:27.056574
- Title: Memorization in Attention-only Transformers
- Title(参考訳): 注意のみの変圧器の記憶
- Authors: Léo Dana, Muni Sreenivas Pydi, Yann Chevaleyre,
- Abstract要約: 本稿では,現在の仮説を任意の文脈サイズに拡張する言語ベースのトランスフォーマーの証明を提案する。
本手法は,注目層を用いたより効果的な正確な記憶を実現することにより,最先端技術の向上を図っている。
- 参考スコア(独自算出の注目度): 9.888839721140231
- License:
- Abstract: Recent research has explored the memorization capacity of multi-head attention, but these findings are constrained by unrealistic limitations on the context size. We present a novel proof for language-based Transformers that extends the current hypothesis to any context size. Our approach improves upon the state-of-the-art by achieving more effective exact memorization with an attention layer, while also introducing the concept of approximate memorization of distributions. Through experimental validation, we demonstrate that our proposed bounds more accurately reflect the true memorization capacity of language models, and provide a precise comparison with prior work.
- Abstract(参考訳): 近年、多面的注意の記憶能力について研究されているが、これらの発見は文脈サイズに対する非現実的な制限によって制限されている。
本稿では,現在の仮説を任意の文脈サイズに拡張する言語ベースのトランスフォーマーの新たな証明を提案する。
提案手法は,注目層によるより効果的な正確な記憶を実現するとともに,分布の近似記憶という概念を導入することにより,最先端技術の向上を図っている。
実験により,提案した境界は,言語モデルの真の記憶能力をより正確に反映し,先行研究と正確な比較を行うことを示した。
関連論文リスト
- Exploring Local Memorization in Diffusion Models via Bright Ending Attention [62.979954692036685]
拡散モデルにおける新しい明るいエンディング(BE)異常を識別し,活用し,トレーニング画像を記憶する。
また, 暗記画像パッチは, 非暗記画像パッチに比べて最終推論段階において, エンドトークンに対して有意に注意を払っていることが示唆された。
本稿では、BEと新しいローカライゼーションタスクの結果を既存のフレームワークに組み込むための、シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-29T02:16:01Z) - Predicting and analyzing memorization within fine-tuned Large Language Models [0.0]
大規模言語モデルはトレーニングデータのかなりの割合を記憶しており、推論時に開示されると深刻な脅威となる。
そこで本稿では, 記憶されたサンプルを事前検出するための, スライスされた相互情報に基づく新しい手法を提案する。
我々は,暗記前に,これらの脆弱なサンプルの系統的な検査と保護を行うための方法を編み出した,強い経験的結果を得た。
論文 参考訳(メタデータ) (2024-09-27T15:53:55Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - ROME: Memorization Insights from Text, Logits and Representation [17.458840481902644]
本稿では、トレーニングデータの直接処理をバイパスするROMEという革新的な手法を提案する。
具体的には、コンテキスト非依存、従来型、事実の3つの異なるタイプに分類されるデータセットを選択します。
そこで本研究では,生成したテキストのロジットと表現を調べることで,記憶されたサンプルと記憶されていないサンプルの相違に着目した。
論文 参考訳(メタデータ) (2024-03-01T13:15:30Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Memory and Knowledge Augmented Language Models for Inferring Salience in
Long-Form Stories [21.99104738567138]
本稿では,Barthes Cardinal Functions 由来の塩分検出の教師なし手法とサプライズ理論について述べる。
外部知識ベースを導入し、メモリ機構を追加することにより、標準トランスフォーマー言語モデルを改善する。
このデータに対する評価は,サリエンス検出モデルが非知識ベースおよびメモリ拡張言語モデル以上の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-09-08T16:15:50Z) - On Memorization in Probabilistic Deep Generative Models [4.987581730476023]
深層生成モデルの最近の進歩は、様々なアプリケーション領域において印象的な結果をもたらしている。
深層学習モデルが入力データの一部を記憶する可能性に触発されたため、記憶の仕組みを理解するための努力が増加している。
論文 参考訳(メタデータ) (2021-06-06T19:33:04Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。