論文の概要: Image Captioning using Multiple Transformers for Self-Attention
Mechanism
- arxiv url: http://arxiv.org/abs/2103.05103v1
- Date: Sun, 14 Feb 2021 05:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-05 00:42:33.696333
- Title: Image Captioning using Multiple Transformers for Self-Attention
Mechanism
- Title(参考訳): 複数のトランスフォーマーを用いた自己着脱機構のための画像キャプション
- Authors: Farrukh Olimov, Shikha Dubey, Labina Shrestha, Tran Trung Tin, Moongu
Jeon
- Abstract要約: 提案アルゴリズムMTSMは変圧器検出器(DETR)を用いて領域提案を取得する。
MSCOCOデータセットには,提案アルゴリズムMTSMの質的,定量的な結果が示されている。
- 参考スコア(独自算出の注目度): 4.366088315820477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time image captioning, along with adequate precision, is the main
challenge of this research field. The present work, Multiple Transformers for
Self-Attention Mechanism (MTSM), utilizes multiple transformers to address
these problems. The proposed algorithm, MTSM, acquires region proposals using a
transformer detector (DETR). Consequently, MTSM achieves the self-attention
mechanism by transferring these region proposals and their visual and
geometrical features through another transformer and learns the objects' local
and global interconnections. The qualitative and quantitative results of the
proposed algorithm, MTSM, are shown on the MSCOCO dataset.
- Abstract(参考訳): リアルタイム画像キャプションは、適切な精度とともに、この研究分野の主要な課題である。
MTSM(Multiple Transformer for Self-Attention Mechanism)は,これらの問題に対処するために複数のトランスを利用する。
提案アルゴリズムであるMTSMは、変圧器検出器(DETR)を用いて領域提案を取得する。
その結果、MTSMはこれらの領域の提案とその視覚的特徴と幾何学的特徴を別の変換器を通して伝達し、オブジェクトの局所的および大域的相互接続を学習することで自己注意機構を実現する。
MSCOCOデータセットには,提案アルゴリズムMTSMの質的,定量的な結果が示されている。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - ModeT: Learning Deformable Image Registration via Motion Decomposition
Transformer [7.629385629884155]
本稿では,複数のモーダルを明示的にモデル化する新しい動作分解変換器 (ModeT) を提案する。
提案手法は,現状の登録ネットワークやトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2023-06-09T06:00:05Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Multi-manifold Attention for Vision Transformers [12.862540139118073]
ビジョントランスフォーマーは、いくつかのコンピュータビジョンタスクにおける最先端の性能のために、今日では非常に人気がある。
本研究では, 変圧器のバニラ自己注意の代替として, マルチマニフォールドマルチヘッドアテンションと呼ばれる新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-07-18T12:53:53Z) - TransVPR: Transformer-based place recognition with multi-level attention
aggregation [9.087163485833058]
本稿では,視覚変換器に基づく新しい総合的位置認識モデルTransVPRを提案する。
TransVPRは、いくつかの実世界のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-01-06T10:20:24Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。