論文の概要: Chain and Causal Attention for Efficient Entity Tracking
- arxiv url: http://arxiv.org/abs/2410.05565v1
- Date: Mon, 7 Oct 2024 23:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 17:58:21.835729
- Title: Chain and Causal Attention for Efficient Entity Tracking
- Title(参考訳): 効率的なエンティティ追跡のための連鎖と因果注意
- Authors: Erwan Fagnou, Paul Caillon, Blaise Delattre, Alexandre Allauzen,
- Abstract要約: そこで本研究では,標準的な注意機構の効率的かつ簡素な拡張について提案する。
隣接行列として注意を向けることにより、我々のモデルは単一の層で実体状態を追跡することができる。
私たちの貢献には、理論的洞察、注意機構の改善、実証的検証が含まれる。
- 参考スコア(独自算出の注目度): 46.577761606415805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the limitations of transformers for entity-tracking tasks in large language models. We identify a theoretical constraint, showing that transformers require at least $\log_2 (n+1)$ layers to handle entity tracking with $n$ state changes. To address this issue, we propose an efficient and frugal enhancement to the standard attention mechanism, enabling it to manage long-term dependencies more efficiently. By considering attention as an adjacency matrix, our model can track entity states with a single layer. Empirical results demonstrate significant improvements in entity tracking datasets while keeping competitive performance on standard natural language modeling. Our modified attention allows us to achieve the same performance with drastically fewer layers. Additionally, our enhanced mechanism reveals structured internal representations of attention. Extensive experiments on both toy and complex datasets validate our approach. Our contributions include theoretical insights, an improved attention mechanism, and empirical validation.
- Abstract(参考訳): 本稿では,大規模言語モデルにおけるエンティティ追跡タスクにおけるトランスフォーマーの限界について検討する。
我々は、少なくとも$\log_2 (n+1)$レイヤが、$n$状態変化を伴うエンティティトラッキングを処理するために必要であることを示す、理論的制約を識別する。
この問題に対処するため、我々は、より効率的な長期依存の管理を可能にする、標準的な注意機構の効率的かつ簡素な強化を提案する。
隣接行列として注意を向けることにより、我々のモデルは単一の層で実体状態を追跡することができる。
実験結果は、標準自然言語モデリングにおける競合性能を維持しながら、エンティティ追跡データセットの大幅な改善を示す。
修正された注意により、レイヤーを劇的に減らして同じパフォーマンスを達成することができます。
さらに,我々の強化されたメカニズムは,注意の構造化された内部表現を明らかにする。
おもちゃと複雑なデータセットに関する大規模な実験は、我々のアプローチを検証する。
私たちの貢献には、理論的洞察、注意機構の改善、実証的検証が含まれる。
関連論文リスト
- Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking [24.416534698362643]
MLLM(Multimodal large language model)は印象的な能力を示すが、複雑な視覚的推論の課題に直面している。
我々はモンテカルロ木探索(MCTS)によるマルチモーダル推論のための自動構造化思考パラダイムであるAStarを提案する。
AStarはMCTSを使った階層構造を用いて、限られたデータから高レベルの認知的推論パターンを自動的に導き出す。
論文 参考訳(メタデータ) (2025-02-04T14:18:29Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [46.06496660333768]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。