論文の概要: Fusion Matters: Length-Aware Analysis of Positional-Encoding Fusion in Transformers
- arxiv url: http://arxiv.org/abs/2601.05807v1
- Date: Fri, 09 Jan 2026 14:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.980216
- Title: Fusion Matters: Length-Aware Analysis of Positional-Encoding Fusion in Transformers
- Title(参考訳): 核融合 : 変圧器の位置エンコード核融合の長軸解析
- Authors: Mohamed Amine Hallam, Kuo-Kun Tseng,
- Abstract要約: 核融合機構自体が性能に影響を及ぼすか,特に時系列設定において検討する。
実験により、融合選択は短いテキストに無視できる影響を持つが、長い文書に一貫した利益をもたらすことが示された。
この結果から, 位置エンコード融合は長周期変換器の非自明な選択であることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers require positional encodings to represent sequence order, yet most prior work focuses on designing new positional encodings rather than examining how positional information is fused with token embeddings. In this paper, we study whether the fusion mechanism itself affects performance, particularly in long-sequence settings. We conduct a controlled empirical study comparing three canonical fusion strategies--element-wise addition, concatenation with projection, and scalar gated fusion--under identical Transformer architectures, data splits, and random seeds. Experiments on three text classification datasets spanning short (AG News), medium (IMDB), and long (ArXiv) sequences show that fusion choice has negligible impact on short texts but produces consistent gains on long documents. To verify that these gains are structural rather than stochastic, we perform paired-seed analysis and cross-dataset comparison across sequence-length regimes. Additional experiments on the ArXiv dataset indicate that the benefit of learnable fusion generalizes across multiple positional encoding families. Finally, we explore a lightweight convolutional gating mechanism that introduces local inductive bias at the fusion level, evaluated on long documents only. Our results indicate that positional-encoding fusion is a non-trivial design choice for long-sequence Transformers and should be treated as an explicit modeling decision rather than a fixed default.
- Abstract(参考訳): トランスフォーマーはシーケンス順を表すために位置エンコーディングを必要とするが、以前のほとんどの研究は、トークンの埋め込みで位置情報がどのように融合しているかを調べるのではなく、新しい位置エンコーディングを設計することに焦点を当てていた。
本稿では,核融合機構自体が性能,特に時系列設定に影響を及ぼすかどうかを考察する。
我々は,3つの標準核融合戦略-要素的付加,射影との結合,スカラーゲート融合-を同一のトランスフォーマーアーキテクチャ,データ分割,ランダムシードの下で比較した制御的実証的研究を行った。
短い(AGニュース)、媒体(IMDB)、長い(ArXiv)シーケンスにまたがる3つのテキスト分類データセットの実験は、融合選択が短いテキストに無視できる影響を持つが、長いドキュメントに一貫した利得をもたらすことを示している。
これらの利得が確率的ではなく構造的であることを検証するために、ペアシード分析とシーケンス長レジーム間のデータセット間比較を行う。
ArXivデータセットのさらなる実験は、学習可能な融合の利点が複数の位置符号化ファミリーにまたがって一般化されることを示唆している。
最後に, 局所帰納バイアスを融合レベルで導入する軽量な畳み込みゲーティング機構について検討する。
この結果から, 位置エンコード融合は長周期変換器の非自明な設計選択であり, 固定デフォルトではなく, 明示的なモデリング決定として扱われるべきであることが示唆された。
関連論文リスト
- PaTH Attention: Position Encoding via Accumulating Householder Transformations [56.32365080761523]
PaTHは、ハウステリア変換の累積積に基づいて、フレキシブルなデータ依存位置符号化方式である。
家庭用行列の積をコンパクトに表現することで,効率的な並列学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2025-05-22T08:36:09Z) - FASTer: Focal Token Acquiring-and-Scaling Transformer for Long-term 3D Object Detection [9.291995455336929]
我々はFAST(Focal Token Acquring-and-Scaling Transformer)を提案する。
FASTerは、適応的で軽量な方法でトークンシーケンスを凝縮する。
性能と効率の両方で、他の最先端の検出器よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-28T03:15:33Z) - Attention over pre-trained Sentence Embeddings for Long Document
Classification [4.38566347001872]
変圧器はトークンの数に2次注意の複雑さがあるため、短いシーケンスに制限されることが多い。
文を意味的に意味のある埋め込みから始めるために,事前学習した文変換器を活用することを提案する。
本稿では,3つの標準文書分類データセットに対して,この簡単なアーキテクチャを用いて得られた結果について報告する。
論文 参考訳(メタデータ) (2023-07-18T09:06:35Z) - Mutual Exclusivity Training and Primitive Augmentation to Induce
Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。
本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。
広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文 参考訳(メタデータ) (2022-11-28T17:36:41Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - ScaleVLAD: Improving Multimodal Sentiment Analysis via Multi-Scale
Fusion of Locally Descriptors [15.042741192427334]
本稿では,テキスト,ビデオ,オーディオからマルチスケール表現を収集する「スケールVLAD」という融合モデルを提案する。
IEMOCAP、MOSI、MOSEIの3つの一般的な感情分析ベンチマークの実験は、ベースラインよりも大幅に向上した。
論文 参考訳(メタデータ) (2021-12-02T16:09:33Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model
for Protein Design [70.27706384570723]
Fold2Seqは特定の標的に条件付きタンパク質配列を設計するための新しいフレームワークである。
Fold2Seqの性能は, シーケンス設計の速度, カバレッジ, 信頼性において向上したか, 同等であったかを示す。
フォールドベースのFold2Seqの独特な利点は、構造ベースのディープモデルやRosettaDesignと比較して、3つの現実世界の課題においてより明確になる。
論文 参考訳(メタデータ) (2021-06-24T14:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。