論文の概要: Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages
- arxiv url: http://arxiv.org/abs/2505.20496v2
- Date: Fri, 19 Sep 2025 22:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.181935
- Title: Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages
- Title(参考訳): インセプティブトランスフォーマー:ドメインと言語間のマルチスケール特徴学習による文脈表現の強化
- Authors: Asif Shahriar, Rifat Shahriyar, M Saifur Rahman,
- Abstract要約: Transformerモデルは、シーケンス内のすべてのトークンから1つの[/]トークンに情報を圧縮して、グローバルなコンテキストを表現する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
本稿では,トランス層上に位置するインセプションスタイルの1-D畳み込みモジュールを提案し,マルチスケールな局所的特徴を持つトークン表現を拡大する。
- 参考スコア(独自算出の注目度): 3.294155819837931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder transformer models compress information from all tokens in a sequence into a single [CLS] token to represent global context. This approach risks diluting fine-grained or hierarchical features, leading to information loss in downstream tasks where local patterns are important. To remedy this, we propose a lightweight architectural enhancement: an inception-style 1-D convolution module that sits on top of the transformer layer and augments token representations with multi-scale local features. This enriched feature space is then processed by a self-attention layer that dynamically weights tokens based on their task relevance. Experiments on five diverse tasks show that our framework consistently improves general-purpose, domain-specific, and multilingual models, outperforming baselines by 1% to 14% while maintaining efficiency. Ablation studies show that multi-scale convolution performs better than any single kernel and that the self-attention layer is critical for performance.
- Abstract(参考訳): エンコーダ変換器は、シーケンス内の全てのトークンからグローバルコンテキストを表す単一の[CLS]トークンに情報を圧縮する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
そこで本研究では,トランス層上に配置し,マルチスケールな局所的特徴を持つトークン表現を付加するインセプションスタイルの1-D畳み込みモジュールを提案する。
このリッチな特徴空間は、タスクの関連性に基づいてトークンを動的に重み付けするセルフアテンション層によって処理される。
5つの多様なタスクの実験により、我々のフレームワークは汎用性、ドメイン固有性、多言語モデルを改善し、効率を保ちながらベースラインを1%から14%上回る結果となった。
アブレーション研究により、マルチスケールの畳み込みはどのカーネルよりも優れており、自己保持層は性能に欠かせないことが示されている。
関連論文リスト
- Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Unified Local and Global Attention Interaction Modeling for Vision Transformers [1.9571946424055506]
本稿では,視覚変換器(ViT)の自己認識機構を拡張し,多様なデータセット間でより正確な物体検出を行う手法を提案する。
ViTは、オブジェクト検出、セグメンテーション、分類などの画像理解タスクに強力な能力を示す。
従来の自己意識フレームワークには,局所的特徴混合のための新たなアグレッシブ・コンボリューション・プール戦略と,新たな概念的アテンション・トランスフォーメーションという,2つの改良が加えられている。
論文 参考訳(メタデータ) (2024-12-25T04:53:19Z) - One-for-All: Towards Universal Domain Translation with a Single StyleGAN [86.33216867136639]
視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
論文 参考訳(メタデータ) (2023-10-22T08:02:55Z) - FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。
FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-10-20T15:54:18Z) - MCTformer+: Multi-Class Token Transformer for Weakly Supervised Semantic
Segmentation [90.73815426893034]
弱教師付きセマンティックセグメンテーションの強化を目的としたトランスフォーマーベースのフレームワークを提案する。
複数のクラストークンを組み込んだマルチクラストークン変換器を導入し,パッチトークンとのクラス認識インタラクションを実現する。
識別型クラストークンの学習を促進するために,Contrastive-Class-Token (CCT)モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-06T03:30:20Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - Multi-class Token Transformer for Weakly Supervised Semantic
Segmentation [94.78965643354285]
弱教師付きセマンティックセグメンテーション(WSSS)のための擬似ラベルとしてクラス固有のオブジェクトローカライゼーションマップを学習するトランスフォーマーベースのフレームワークを提案する。
標準視覚変換器の1クラストークンの付随領域を利用してクラス非依存のローカライゼーションマップを作成できることに着想を得て、トランスフォーマーモデルがより識別的なオブジェクトローカライゼーションのためにクラス固有の注意を効果的に捉えることができるかどうかを検討する。
提案手法は, PASCAL VOCおよびMS COCOデータセットにおいて, クラス活性化マッピング(CAM)法を完全に補完するものである。
論文 参考訳(メタデータ) (2022-03-06T07:18:23Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。