Fugu-MT 論文翻訳(概要): Chain and Causal Attention for Efficient Entity Tracking

論文の概要: Chain and Causal Attention for Efficient Entity Tracking

arxiv url: http://arxiv.org/abs/2410.05565v1
Date: Mon, 7 Oct 2024 23:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 17:58:21.835729
Title: Chain and Causal Attention for Efficient Entity Tracking
Title（参考訳）: 効率的なエンティティ追跡のための連鎖と因果注意
Authors: Erwan Fagnou, Paul Caillon, Blaise Delattre, Alexandre Allauzen,
Abstract要約: そこで本研究では,標準的な注意機構の効率的かつ簡素な拡張について提案する。隣接行列として注意を向けることにより、我々のモデルは単一の層で実体状態を追跡することができる。私たちの貢献には、理論的洞察、注意機構の改善、実証的検証が含まれる。
参考スコア（独自算出の注目度）: 46.577761606415805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper investigates the limitations of transformers for entity-tracking tasks in large language models. We identify a theoretical constraint, showing that transformers require at least $\log_2 (n+1)$ layers to handle entity tracking with $n$ state changes. To address this issue, we propose an efficient and frugal enhancement to the standard attention mechanism, enabling it to manage long-term dependencies more efficiently. By considering attention as an adjacency matrix, our model can track entity states with a single layer. Empirical results demonstrate significant improvements in entity tracking datasets while keeping competitive performance on standard natural language modeling. Our modified attention allows us to achieve the same performance with drastically fewer layers. Additionally, our enhanced mechanism reveals structured internal representations of attention. Extensive experiments on both toy and complex datasets validate our approach. Our contributions include theoretical insights, an improved attention mechanism, and empirical validation.
Abstract（参考訳）: 本稿では,大規模言語モデルにおけるエンティティ追跡タスクにおけるトランスフォーマーの限界について検討する。我々は、少なくとも$\log_2 (n+1)$レイヤが、$n$状態変化を伴うエンティティトラッキングを処理するために必要であることを示す、理論的制約を識別する。この問題に対処するため、我々は、より効率的な長期依存の管理を可能にする、標準的な注意機構の効率的かつ簡素な強化を提案する。隣接行列として注意を向けることにより、我々のモデルは単一の層で実体状態を追跡することができる。実験結果は、標準自然言語モデリングにおける競合性能を維持しながら、エンティティ追跡データセットの大幅な改善を示す。修正された注意により、レイヤーを劇的に減らして同じパフォーマンスを達成することができます。さらに,我々の強化されたメカニズムは,注意の構造化された内部表現を明らかにする。おもちゃと複雑なデータセットに関する大規模な実験は、我々のアプローチを検証する。私たちの貢献には、理論的洞察、注意機構の改善、実証的検証が含まれる。

関連論文リスト

Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。 SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文参考訳（メタデータ） (2024-06-17T07:24:38Z)
Towards Better Text-to-Image Generation Alignment via Attention Modulation [16.020834525343997]
本研究では,拡散モデルに対する注意の変調による学習自由な位相ワイズ機構である属性焦点機構を提案する。クロスアテンションモジュールには、オブジェクト指向マスキングスキームと位相ワイドダイナミックウェイトコントロール機構が組み込まれている。様々なアライメントシナリオにおける実験結果から,我々のモデルは最小の計算コストでより優れた画像テキストアライメントを実現することができた。
論文参考訳（メタデータ） (2024-04-22T06:18:37Z)
EnriCo: Enriched Representation and Globally Constrained Inference for Entity and Relation Extraction [3.579132482505273]
結合実体と関係抽出は、特に知識グラフの構築において、様々な応用において重要な役割を担っている。既存のアプローチはしばしば、表現の豊かさと出力構造におけるコヒーレンスという2つの重要な側面に欠ける。本研究では,これらの欠点を緩和するEnriCoを紹介する。
論文参考訳（メタデータ） (2024-04-18T20:15:48Z)
Representation Alignment Contrastive Regularization for Multi-Object Tracking [29.837560662395713]
多目的追跡アルゴリズムのメインストリーム性能は、データアソシエーション段階における重時間関係のモデリングに依存する。この研究は、深層学習に基づく時間的関係モデルを単純化し、データアソシエーション設計に解釈可能性を導入することを目的としている。
論文参考訳（メタデータ） (2024-04-03T08:33:08Z)
Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。微調整はモデルの機械的操作を変えるのではなく、強化する。
論文参考訳（メタデータ） (2024-02-22T18:59:24Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Joint Spatial-Temporal and Appearance Modeling with Transformer for Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文参考訳（メタデータ） (2022-05-31T01:19:18Z)
Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文参考訳（メタデータ） (2022-04-05T09:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。