論文の概要: Perspectives and Prospects on Transformer Architecture for Cross-Modal
Tasks with Language and Vision
- arxiv url: http://arxiv.org/abs/2103.04037v1
- Date: Sat, 6 Mar 2021 05:44:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 17:12:00.867799
- Title: Perspectives and Prospects on Transformer Architecture for Cross-Modal
Tasks with Language and Vision
- Title(参考訳): 言語とビジョンを持つクロスモーダルタスクにおけるトランスフォーマーアーキテクチャの展望と展望
- Authors: Andrew Shin, Masato Ishii, Takuya Narihira
- Abstract要約: トランスフォーマーアーキテクチャは、計算言語分野に根本的な変化をもたらした。
我々は、この分野における最も重要なマイルストーンのいくつかと、トランスフォーマーアーキテクチャがいかにしてビゾリンガスティックなクロスモーダルタスクに組み込まれたかに関する全体的なトレンドをレビューする。
- 参考スコア(独自算出の注目度): 3.0079490585515343
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer architectures have brought about fundamental changes to
computational linguistic field, which had been dominated by recurrent neural
networks for many years. Its success also implies drastic changes in
cross-modal tasks with language and vision, and many researchers have already
tackled the issue. In this paper, we review some of the most critical
milestones in the field, as well as overall trends on how transformer
architecture has been incorporated into visuolinguistic cross-modal tasks.
Furthermore, we discuss its current limitations and speculate upon some of the
prospects that we find imminent.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、長年の繰り返しニューラルネットワークによって支配されてきた計算言語分野に根本的な変化をもたらした。
その成功は、言語とビジョンによるクロスモーダルタスクの劇的な変化も意味しており、多くの研究者がこの問題に取り組んでいます。
本稿では,この分野で最も重要なマイルストーンのいくつかについてレビューするとともに,トランスフォーマーアーキテクチャがビゾリンガ主義的なクロスモーダルタスクにどのように組み込まれてきたかに関する全体的なトレンドについて述べる。
さらに,現状の限界について検討し,今後の展望について考察する。
関連論文リスト
- Vision Language Transformers: A Survey [0.9137554315375919]
イメージを記述するキャプションに関する質問に答えたり、生成したりするといった視覚言語タスクは、コンピュータが実行するのが難しいタスクである。
最近の研究は、ciptvaswani 2017で導入された事前訓練されたトランスフォーマーアーキテクチャを視覚言語モデリングに適用している。
トランスフォーマーモデルは、以前のビジョン言語モデルよりも性能と汎用性を大幅に改善した。
論文 参考訳(メタデータ) (2023-07-06T19:08:56Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Investigation of Network Architecture for Multimodal Head-and-Neck Tumor
Segmentation [9.441769048218955]
本研究では,トランスフォーマーを用いたマルチモーダルヘッド・アンド・腫瘍セグメンテーションのためのネットワークアーキテクチャを最近発表した。
以上の結果から,大規模構造が存在する場合や視野が大きい場合には,長距離依存関係のモデリングが有用である可能性が示唆された。
頭頸部腫瘍のような小さな構造では、畳み込みに基づくU-Netアーキテクチャは、特にトレーニングデータセットが小さく、計算資源が限られている場合、うまく機能しているように思われた。
論文 参考訳(メタデータ) (2022-12-21T02:35:46Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - TxT: Crossmodal End-to-End Learning with Transformers [84.55645255507461]
複数のモダリティに対する推論は、ドメイン間のセマンティックな概念の整合性を必要とする。
TxTはトランスフォーマーベースのクロスモーダルパイプラインで、下流タスクで言語とビジュアルコンポーネントの両方を微調整できる。
本モデルは,マルチモーダル質問応答のためのエンド・ツー・エンド・ラーニングからかなりの利益を得る。
論文 参考訳(メタデータ) (2021-09-09T17:12:20Z) - Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。
提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文 参考訳(メタデータ) (2021-06-29T09:01:13Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。