Fugu-MT 論文翻訳(概要): Differentiable Window for Dynamic Local Attention

論文の概要: Differentiable Window for Dynamic Local Attention

arxiv url: http://arxiv.org/abs/2006.13561v1
Date: Wed, 24 Jun 2020 08:47:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 08:56:42.926343
Title: Differentiable Window for Dynamic Local Attention
Title（参考訳）: 動的局所注意のための微分可能ウィンドウ
Authors: Thanh-Tung Nguyen, Xuan-Phi Nguyen, Shafiq Joty, Xiaoli Li
Abstract要約: 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。
参考スコア（独自算出の注目度）: 21.395573911155495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Differentiable Window, a new neural module and general purpose component for dynamic window selection. While universally applicable, we demonstrate a compelling use case of utilizing Differentiable Window to improve standard attention modules by enabling more focused attentions over the input regions. We propose two variants of Differentiable Window, and integrate them within the Transformer architecture in two novel ways. We evaluate our proposed approach on a myriad of NLP tasks, including machine translation, sentiment analysis, subject-verb agreement and language modeling. Our experimental results demonstrate consistent and sizable improvements across all tasks.
Abstract（参考訳）: 動的ウィンドウ選択のための新しいニューラルモジュールと汎用コンポーネントであるdiffariable Windowを提案する。普遍的に適用できるが, 微分可能な窓を利用して, 入力領域の注目度を高めることにより, 標準アテンションモジュールを改善する, 説得力のあるユースケースを示す。微分可能ウィンドウの2つの変種を提案し、2つの新しい方法でトランスフォーマーアーキテクチャに統合する。我々は,機械翻訳,感情分析,主観的な合意,言語モデリングなど,無数のNLPタスクに対する提案手法を評価する。実験の結果,すべてのタスクにおける一貫性と大幅な改善が示された。

関連論文リスト

DeltaVLM: Interactive Remote Sensing Image Change Analysis via Instruction-guided Difference Perception [0.846600473226587]
本稿では, リモートセンシング画像変化解析(RSICA)を, 変化検出の強みと視覚的質問応答を組み合わせた新しいパラダイムとして導入する。対話型RSICAに適したエンドツーエンドアーキテクチャであるDeltaVLMを提案する。 DeltaVLMは, 時間差を捉えた微調整バイテンポラルビジョンエンコーダ, 変化を解釈する相互関係測定機構を備えた視覚差分認識モジュール, クエリ関連差分情報を効果的に抽出する命令誘導Q-フォーマの3つのイノベーションを特徴とする。
論文参考訳（メタデータ） (2025-07-30T03:14:27Z)
Bridging the Dynamic Perception Gap: Training-Free Draft Chain-of-Thought for Dynamic Multimodal Spatial Reasoning [18.7712668000592]
動的空間推論の評価を目的とした新しい迷路ナビゲーションベンチマークを提案する。実験により、動的視覚的ドラフトによる推論連鎖の増大、入力画像のオーバーレイドは、従来の手法よりも著しく優れていることが示された。 D2R(Dynamic Draft-Augmented Reasoning)は、テキストCoTと対応するビジュアルドラフトをシームレスにMLLMに統合するトレーニングフリーフレームワークである。
論文参考訳（メタデータ） (2025-05-22T12:14:23Z)
Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction [4.692621855184482]
Single-Domain Generalized Object Detection (S-DGOD)は、単一のソースドメイン上でオブジェクト検出をトレーニングすることを目的としている。最近のS-DGODアプローチは、事前学習された視覚言語知識を利用して、視覚領域を越えて不変な特徴学習を導く。本稿では,S-DGODタスクの一般化および識別的地域特徴をキャプチャするクロスモーダル特徴学習手法を提案する。
論文参考訳（メタデータ） (2025-04-27T02:55:54Z)
IP-MOT: Instance Prompt Learning for Cross-Domain Multi-Object Tracking [13.977088329815933]
マルチオブジェクト追跡(MOT)は、ビデオフレーム間で複数のオブジェクトを関連付けることを目的としている。既存のアプローチのほとんどは単一のドメイン内でトレーニングと追跡を行っており、結果としてドメイン間の一般化性が欠如している。我々は,具体的テキスト記述なしで動作可能なMOTのエンドツーエンドトランスフォーマモデルであるIP-MOTを開発した。
論文参考訳（メタデータ） (2024-10-30T14:24:56Z)
Multi-Granularity Language-Guided Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文参考訳（メタデータ） (2024-06-07T11:18:40Z)
Prompt-Driven Dynamic Object-Centric Learning for Single Domain Generalization [61.64304227831361]
単一ドメインの一般化は、単一のソースドメインデータからモデルを学び、他の見えないターゲットドメイン上での一般的なパフォーマンスを達成することを目的としている。本稿では,画像の複雑さの変化に対応することを目的とした,素早い学習に基づく動的物体中心知覚ネットワークを提案する。
論文参考訳（メタデータ） (2024-02-28T16:16:51Z)
All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-07T03:51:21Z)
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention [34.26177289099421]
視覚変換器(ViT)の最近の進歩において、自己注意機構が重要な要素となっている。本稿では,高効率,柔軟性,一般化性を実現するために共通畳み込み演算を利用する新しいローカルアテンションモジュールを提案する。我々のモジュールは、効率的かつ柔軟な方法で局所的な注意パラダイムを実現する。
論文参考訳（メタデータ） (2023-04-09T13:37:59Z)
Siamese DETR [87.45960774877798]
本稿では,DeTR における Transformer アーキテクチャの自己教師型事前学習手法である Siamese DETR を提案する。我々は2つの相補的なタスクを通して、ビュー不変と検出指向の表現を同時に学習することを検討する。提案したSiamese DETRはCOCOおよびPASCALVOC検出における最先端の転送性能を実現する。
論文参考訳（メタデータ） (2023-03-31T15:29:25Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
Generalizing Multiple Object Tracking to Unseen Domains by Introducing Natural Language Representation [33.03600813115465]
本稿では,領域一般化能力を高めるために,視覚的MOTモデルに自然言語表現を導入することを提案する。この問題に対処するために、視覚的コンテキストプロンプト(VCP)と視覚言語混合(VLM)という2つのモジュールを設計する。 VLMは生成した視覚的プロンプトの情報と、予め定義されたトラックブックからのテキストプロンプトとを結合して、インスタンスレベルの擬似テキスト記述を取得する。また,MOT17上でのトレーニングモデルとMOT20上での検証により,提案モジュールが生成した擬似テキスト記述により,クエリベースのトラッカーの一般化性能が大幅に向上することが確認された。
論文参考訳（メタデータ） (2022-12-03T07:57:31Z)
Modeling Motion with Multi-Modal Features for Text-Based Video Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文参考訳（メタデータ） (2022-04-06T02:42:33Z)
Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文参考訳（メタデータ） (2022-03-30T01:06:13Z)
Dynamic Context-guided Capsule Network for Multimodal Machine Translation [131.37130887834667]
マルチモーダル機械翻訳(MMT)は主にテキストのみの翻訳と視覚的特徴の強化に焦点を当てている。 MMTのための新しい動的コンテキスト誘導カプセルネットワーク(DCCN)を提案する。英語・ドイツ語・英語・フランス語のMulti30Kデータセットによる実験結果から,DCCNの優位性が確認された。
論文参考訳（メタデータ） (2020-09-04T06:18:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。