Fugu-MT 論文翻訳(概要): Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision

論文の概要: Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision

arxiv url: http://arxiv.org/abs/2103.04037v1
Date: Sat, 6 Mar 2021 05:44:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-10 17:12:00.867799
Title: Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision
Title（参考訳）: 言語とビジョンを持つクロスモーダルタスクにおけるトランスフォーマーアーキテクチャの展望と展望
Authors: Andrew Shin, Masato Ishii, Takuya Narihira
Abstract要約: トランスフォーマーアーキテクチャは、計算言語分野に根本的な変化をもたらした。我々は、この分野における最も重要なマイルストーンのいくつかと、トランスフォーマーアーキテクチャがいかにしてビゾリンガスティックなクロスモーダルタスクに組み込まれたかに関する全体的なトレンドをレビューする。
参考スコア（独自算出の注目度）: 3.0079490585515343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer architectures have brought about fundamental changes to computational linguistic field, which had been dominated by recurrent neural networks for many years. Its success also implies drastic changes in cross-modal tasks with language and vision, and many researchers have already tackled the issue. In this paper, we review some of the most critical milestones in the field, as well as overall trends on how transformer architecture has been incorporated into visuolinguistic cross-modal tasks. Furthermore, we discuss its current limitations and speculate upon some of the prospects that we find imminent.
Abstract（参考訳）: トランスフォーマーアーキテクチャは、長年の繰り返しニューラルネットワークによって支配されてきた計算言語分野に根本的な変化をもたらした。その成功は、言語とビジョンによるクロスモーダルタスクの劇的な変化も意味しており、多くの研究者がこの問題に取り組んでいます。本稿では,この分野で最も重要なマイルストーンのいくつかについてレビューするとともに,トランスフォーマーアーキテクチャがビゾリンガ主義的なクロスモーダルタスクにどのように組み込まれてきたかに関する全体的なトレンドについて述べる。さらに,現状の限界について検討し,今後の展望について考察する。

関連論文リスト

Image Segmentation with transformers: An Overview, Challenges and Future [0.0]
本稿ではCNNベースのモデルの欠点とトランスフォーマーアーキテクチャへの移行について考察する。本稿では,トランスフォーマーを用いたセグメンテーションにおける現在の課題について論じ,今後の展望を概説する。
論文参考訳（メタデータ） (2025-01-16T08:34:39Z)
A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文参考訳（メタデータ） (2024-08-27T16:22:18Z)
The Progression of Transformers from Language to Vision to MOT: A Literature Review on Multi-Object Tracking with Transformers [0.0]
トランスフォーマーニューラルネットワークアーキテクチャは、自動回帰シーケンス・ツー・シーケンスモデリングを可能にする。トランスフォーマーは様々なパターン認識タスク、特にコンピュータビジョンにも応用されている。
論文参考訳（メタデータ） (2024-06-24T16:45:28Z)
A Survey on Large Language Models from Concept to Implementation [4.219910716090213]
近年のLarge Language Models (LLM) の進歩により、自然言語処理(NLP)アプリケーションの範囲が拡大している。本稿では,これらのモデルの多面的応用について検討し,GPTシリーズに着目した。この調査は、コーディングや問題解決といった従来のタスクに革命をもたらす人工知能(AI)駆動ツールの変革的な影響に焦点を当てている。
論文参考訳（メタデータ） (2024-03-27T19:35:41Z)
A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。 50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文参考訳（メタデータ） (2024-03-21T08:54:56Z)
Vision Language Transformers: A Survey [0.9137554315375919]
イメージを記述するキャプションに関する質問に答えたり、生成したりするといった視覚言語タスクは、コンピュータが実行するのが難しいタスクである。最近の研究は、ciptvaswani 2017で導入された事前訓練されたトランスフォーマーアーキテクチャを視覚言語モデリングに適用している。トランスフォーマーモデルは、以前のビジョン言語モデルよりも性能と汎用性を大幅に改善した。
論文参考訳（メタデータ） (2023-07-06T19:08:56Z)
A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。 Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文参考訳（メタデータ） (2023-06-11T23:13:51Z)
Multi-Exit Vision Transformer for Dynamic Inference [88.17413955380262]
視覚変換器のバックボーンの動的推論に使用できる早期出口分岐のための7つの異なるアーキテクチャを提案する。提案したアーキテクチャのそれぞれが,精度と速度のトレードオフにおいて有用であることを示す。
論文参考訳（メタデータ） (2021-06-29T09:01:13Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)
Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文参考訳（メタデータ） (2021-01-04T18:57:24Z)
Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文参考訳（メタデータ） (2020-09-14T20:38:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。