論文の概要: Differentiable Window for Dynamic Local Attention
- arxiv url: http://arxiv.org/abs/2006.13561v1
- Date: Wed, 24 Jun 2020 08:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 08:56:42.926343
- Title: Differentiable Window for Dynamic Local Attention
- Title(参考訳): 動的局所注意のための微分可能ウィンドウ
- Authors: Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li
- Abstract要約: 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。
我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。
- 参考スコア(独自算出の注目度): 21.395573911155495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Differentiable Window, a new neural module and general purpose
component for dynamic window selection. While universally applicable, we
demonstrate a compelling use case of utilizing Differentiable Window to improve
standard attention modules by enabling more focused attentions over the input
regions. We propose two variants of Differentiable Window, and integrate them
within the Transformer architecture in two novel ways. We evaluate our proposed
approach on a myriad of NLP tasks, including machine translation, sentiment
analysis, subject-verb agreement and language modeling. Our experimental
results demonstrate consistent and sizable improvements across all tasks.
- Abstract(参考訳): 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。
普遍的に適用できるが, 微分可能な窓を利用して, 入力領域の注目度を高めることにより, 標準アテンションモジュールを改善する, 説得力のあるユースケースを示す。
微分可能ウィンドウの2つの変種を提案し、2つの新しい方法でトランスフォーマーアーキテクチャに統合する。
我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。
実験の結果,すべてのタスクにおける一貫性と大幅な改善が示された。
関連論文リスト
- IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。
既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。
我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文 参考訳(メタデータ) (2024-10-30T14:24:56Z) - Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - Prompt-Driven Dynamic Object-Centric Learning for Single Domain
Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。
本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T16:16:51Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Slide-Transformer: Hierarchical Vision Transformer with Local
Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。
本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。
我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文 参考訳(メタデータ) (2023-04-09T13:37:59Z) - Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。
我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。
提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T15:29:25Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Generalizing Multiple Object Tracking to Unseen Domains by Introducing
Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。
この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。
VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。
また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2022-12-03T07:57:31Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。