論文の概要: Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers
- arxiv url: http://arxiv.org/abs/2408.05506v1
- Date: Sat, 10 Aug 2024 10:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 18:41:36.305752
- Title: Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers
- Title(参考訳): コンテキストは配列ではない:トランスフォーマーのランダムアクセス制限を解除する
- Authors: MohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic,
- Abstract要約: トランスフォーマーベースの大規模言語モデルは驚くべき障害モードを示す。
長大一般化の失敗は、コンテキストウィンドウ内でランダムなメモリアクセスを実行することができないモデルと複雑な関係がある。
注意マップの可視化を通して、ランダムなメモリアクセスの失敗の場所と方法を示す。
- 参考スコア(独自算出の注目度): 5.2394488308373655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their recent successes, Transformer-based large language models show surprising failure modes. A well-known example of such failure modes is their inability to length-generalize: solving problem instances at inference time that are longer than those seen during training. In this work, we further explore the root cause of this failure by performing a detailed analysis of model behaviors on the simple parity task. Our analysis suggests that length generalization failures are intricately related to a model's inability to perform random memory accesses within its context window. We present supporting evidence for this hypothesis by demonstrating the effectiveness of methodologies that circumvent the need for indexing or that enable random token access indirectly, through content-based addressing. We further show where and how the failure to perform random memory access manifests through attention map visualizations.
- Abstract(参考訳): 最近の成功にもかかわらず、Transformerベースの大規模言語モデルは驚くべき障害モードを示している。
このような障害モードのよく知られた例は、長さを一般化できないことだ。
本研究では,単純なパリティタスク上でのモデル行動の詳細な解析を行うことにより,この失敗の根本原因をさらに解明する。
解析の結果,長さ一般化の失敗は,コンテキストウィンドウ内でランダムなメモリアクセスを行うことができないモデルと複雑な関係があることが示唆された。
本稿では,コンテンツベースのアドレッシングを通じて,インデックス化の必要性を回避したり,間接的にランダムトークンアクセスを可能にする手法の有効性を示すことによって,この仮説を裏付ける証拠を提示する。
さらに、アテンションマップの可視化を通して、ランダムなメモリアクセスの失敗がどこに、どのように現れるかを示す。
関連論文リスト
- Estimating Causal Effects from Learned Causal Networks [56.14597641617531]
本稿では、離散可観測変数に対する因果影響クエリに応答する代替パラダイムを提案する。
観測データから直接因果ベイズネットワークとその共起潜伏変数を学習する。
本手法は, 推定手法よりも有効であることを示す。
論文 参考訳(メタデータ) (2024-08-26T08:39:09Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Pattern-Based Time-Series Risk Scoring for Anomaly Detection and Alert Filtering -- A Predictive Maintenance Case Study [3.508168174653255]
本稿では,逐次パターンの類似性に基づいて,異常検出と警告フィルタリングを高速かつ効率的に行う手法を提案する。
本稿では, 大規模産業システムにおける異常検出を含む様々な目的で, このアプローチをどのように活用するかを示す。
論文 参考訳(メタデータ) (2024-05-24T20:27:45Z) - PRIME: Prioritizing Interpretability in Failure Mode Extraction [49.93565079216376]
訓練された画像分類モデルにおいて、故障モードに対する人間の理解可能な記述を提供することの課題について検討する。
本稿では,この問題における解釈可能性を重視した新しい手法を提案する。
本手法は,障害モードの同定に成功し,それに関連する高品質なテキスト記述を生成する。
論文 参考訳(メタデータ) (2023-09-29T22:00:12Z) - How adversarial attacks can disrupt seemingly stable accurate classifiers [76.95145661711514]
敵攻撃は、入力データに不連続な修正を加えることで、非正確な学習システムの出力を劇的に変化させる。
ここでは,これは高次元入力データを扱う分類器の基本的特徴であると考えられる。
実用システムで観測される重要な振る舞いを高い確率で発生させる、単純で汎用的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-09-07T12:02:00Z) - Shortcomings of Top-Down Randomization-Based Sanity Checks for
Evaluations of Deep Neural Network Explanations [67.40641255908443]
モデルランダム化に基づく正当性チェックの限界を,説明書の評価のために同定する。
トップダウンモデルランダム化は、フォワードパスアクティベーションのスケールを高い確率で保存する。
論文 参考訳(メタデータ) (2022-11-22T18:52:38Z) - Discovering Bugs in Vision Models using Off-the-shelf Image Generation
and Captioning [25.88974494276895]
この研究は、オフザシェルフ、大規模、画像からテキストへ、そしてテキストから画像へのモデルがどのように活用され、自動的に失敗を見つけるかを示す。
本質的には、条件付きテキスト・ツー・イメージ生成モデルを使用して、大量の合成的かつ現実的な入力を生成する。
論文 参考訳(メタデータ) (2022-08-18T13:49:10Z) - TimeREISE: Time-series Randomized Evolving Input Sample Explanation [5.557646286040063]
TimeREISEは時系列分類の文脈において、特に成功に対応するモデル属性法である。
本手法は, 既往の高精度な測定方法と比較して, 優れた性能を示す。
論文 参考訳(メタデータ) (2022-02-16T09:40:13Z) - Interpretable Anomaly Detection with Mondrian P{\'o}lya Forests on Data
Streams [6.177270420667713]
スケールでの異常検出は、非常に困難な実用性の問題である。
最近の研究は、異常検出のためのデータを要約するために、(ランダムな)$k$emphd-treesのバリエーションを合体させてきた。
これらの手法は、容易に解釈できないアドホックスコア関数に依存している。
我々はこれらの手法をモンドリアンポリアフォレストと呼ぶ確率的枠組みでコンテキスト化する。
論文 参考訳(メタデータ) (2020-08-04T13:19:07Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。