論文の概要: StructFormer: Document Structure-based Masked Attention and its Impact on Language Model Pre-Training
- arxiv url: http://arxiv.org/abs/2411.16618v1
- Date: Mon, 25 Nov 2024 17:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:38.916013
- Title: StructFormer: Document Structure-based Masked Attention and its Impact on Language Model Pre-Training
- Title(参考訳): StructFormer: 文書構造に基づくマスケッド注意と言語モデル事前学習への影響
- Authors: Kaustubh Ponkshe, Venkatapathy Subramanian, Natwar Modani, Ganesh Ramakrishnan,
- Abstract要約: 本研究は,BERT事前学習におけるグローバルアテンションの影響を実証的に評価することに焦点を当てた。
我々は、arXivデータとテキスト専用コーパスとともに、構造化対応テキストの広範なコーパスを作成します。
我々の分析は、文書構造をLMモデルに組み込むことの重要性を強調し、より抽象的なタスクに優れることを示す。
- 参考スコア(独自算出の注目度): 20.79815837785261
- License:
- Abstract: Most state-of-the-art techniques for Language Models (LMs) today rely on transformer-based architectures and their ubiquitous attention mechanism. However, the exponential growth in computational requirements with longer input sequences confines Transformers to handling short passages. Recent efforts have aimed to address this limitation by introducing selective attention mechanisms, notably local and global attention. While sparse attention mechanisms, akin to full attention in being Turing-complete, have been theoretically established, their practical impact on pre-training remains unexplored. This study focuses on empirically assessing the influence of global attention on BERT pre-training. The primary steps involve creating an extensive corpus of structure-aware text through arXiv data, alongside a text-only counterpart. We carry out pre-training on these two datasets, investigate shifts in attention patterns, and assess their implications for downstream tasks. Our analysis underscores the significance of incorporating document structure into LM models, demonstrating their capacity to excel in more abstract tasks, such as document understanding.
- Abstract(参考訳): 現在、言語モデル(LM)の最先端技術のほとんどは、トランスフォーマーベースのアーキテクチャとそのユビキタスな注意機構に依存している。
しかし、より長い入力シーケンスを持つ計算要求の指数関数的な増加は、ショートパスを扱うトランスフォーマーを限定する。
近年の取り組みは、特に地域や世界的な注目を集める選択的注意機構を導入することで、この制限に対処することを目指している。
チューリング完全性に類似した軽微な注意機構が理論的に確立されているが、その事前学習に対する実践的影響は未解明のままである。
本研究は,BERT事前学習におけるグローバルアテンションの影響を実証的に評価することに焦点を当てた。
主なステップは、ArXivデータを通じて構造化対応テキストの広範なコーパスの作成と、テキストのみのコーパスの作成である。
これら2つのデータセットの事前トレーニングを行い、注目パターンの変化を調査し、下流タスクへの影響を評価する。
本分析は、文書構造をLMモデルに組み込むことの重要性を強調し、文書理解などのより抽象的なタスクに優れることを示す。
関連論文リスト
- CAST: Cross Attention based multimodal fusion of Structure and Text for materials property prediction [5.958532929795774]
グラフニューラルネットワーク(GNN)は、結晶構造をグラフとして表現する能力によって際立っている。
これらの方法は、クリスタルシステムや繰り返しユニット接続といった重要なグローバル情報を失うことが多い。
本稿では,重要な資料情報を保持するために,グラフとテキストのモダリティを統合したマルチモーダル融合モデルであるCASTを提案する。
論文 参考訳(メタデータ) (2025-02-06T02:29:39Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Interpreting token compositionality in LLMs: A robustness analysis [10.777646083061395]
Constituent-Aware Pooling (CAP)は、大規模言語モデルが言語構造をどのように処理するかを分析するために設計された方法論である。
CAPは様々なモデルレベルで構成型プールを通してモデル活性化に介入する。
本研究は,合成セマンティクス処理とモデル解釈可能性に関する,現在のトランスフォーマーアーキテクチャの基本的制約を明らかにする。
論文 参考訳(メタデータ) (2024-10-16T18:10:50Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z) - Multilingual Multi-Aspect Explainability Analyses on Machine Reading Comprehension Models [76.48370548802464]
本稿では,マルチヘッド自己注意と最終MRCシステム性能の関係を検討するために,一連の解析実験を実施することに焦点を当てる。
問合せ及び問合せ理解の注意が問合せプロセスにおいて最も重要なものであることが判明した。
包括的可視化とケーススタディを通じて、注意マップに関するいくつかの一般的な知見も観察し、これらのモデルがどのように問題を解くかを理解するのに役立ちます。
論文 参考訳(メタデータ) (2021-08-26T04:23:57Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z) - Data Mining in Clinical Trial Text: Transformers for Classification and
Question Answering Tasks [2.127049691404299]
本研究は,医学的テキストに基づくエビデンス合成に自然言語処理の進歩を適用した。
主な焦点は、Population、Intervention、Comparator、Outcome(PICO)フレームワークを通じて特徴づけられる情報である。
トランスフォーマーに基づく最近のニューラルネットワークアーキテクチャは、トランスファーラーニングの能力を示し、下流の自然言語処理タスクのパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-01-30T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。