論文の概要: Differentiable Window for Dynamic Local Attention
- arxiv url: http://arxiv.org/abs/2006.13561v1
- Date: Wed, 24 Jun 2020 08:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 08:56:42.926343
- Title: Differentiable Window for Dynamic Local Attention
- Title(参考訳): 動的局所注意のための微分可能ウィンドウ
- Authors: Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li
- Abstract要約: 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。
我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。
- 参考スコア(独自算出の注目度): 21.395573911155495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Differentiable Window, a new neural module and general purpose
component for dynamic window selection. While universally applicable, we
demonstrate a compelling use case of utilizing Differentiable Window to improve
standard attention modules by enabling more focused attentions over the input
regions. We propose two variants of Differentiable Window, and integrate them
within the Transformer architecture in two novel ways. We evaluate our proposed
approach on a myriad of NLP tasks, including machine translation, sentiment
analysis, subject-verb agreement and language modeling. Our experimental
results demonstrate consistent and sizable improvements across all tasks.
- Abstract(参考訳): 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。
普遍的に適用できるが, 微分可能な窓を利用して, 入力領域の注目度を高めることにより, 標準アテンションモジュールを改善する, 説得力のあるユースケースを示す。
微分可能ウィンドウの2つの変種を提案し、2つの新しい方法でトランスフォーマーアーキテクチャに統合する。
我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。
実験の結果,すべてのタスクにおける一貫性と大幅な改善が示された。
関連論文リスト
- Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - Multimodal Embodied Interactive Agent for Cafe Scene [86.81802927029976]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T15:29:25Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。