論文の概要: Survey: Transformer-based Models in Data Modality Conversion
- arxiv url: http://arxiv.org/abs/2408.04723v1
- Date: Thu, 8 Aug 2024 18:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 17:18:49.506044
- Title: Survey: Transformer-based Models in Data Modality Conversion
- Title(参考訳): 調査:データモダリティ変換におけるトランスフォーマーモデル
- Authors: Elyas Rashno, Amir Eskandari, Aman Anand, Farhana Zulkernine,
- Abstract要約: モダリティ・コンバージョン(Modality Conversion)は、人間が知覚情報を統合して解釈する方法を模倣して、ある形態の表現から別の形式へのデータの変換を行う。
本稿では, テキスト, 視覚, 音声の一次モーダル性に適用されたトランスフォーマーモデルについて, アーキテクチャ, 変換手法, 応用について論じる。
- 参考スコア(独自算出の注目度): 0.8136541584281987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have made significant strides across various artificial intelligence domains, including natural language processing, computer vision, and audio processing. This success has naturally garnered considerable interest from both academic and industry researchers. Consequently, numerous Transformer variants (often referred to as X-formers) have been developed for these fields. However, a thorough and systematic review of these modality-specific conversions remains lacking. Modality Conversion involves the transformation of data from one form of representation to another, mimicking the way humans integrate and interpret sensory information. This paper provides a comprehensive review of transformer-based models applied to the primary modalities of text, vision, and speech, discussing their architectures, conversion methodologies, and applications. By synthesizing the literature on modality conversion, this survey aims to underline the versatility and scalability of transformers in advancing AI-driven content generation and understanding.
- Abstract(参考訳): トランスフォーマーは自然言語処理、コンピュータビジョン、オーディオ処理など、さまざまな人工知能領域で大きな進歩を遂げている。
この成功は当然、学術と産業の両方の研究者からかなりの関心を集めている。
その結果、多くのトランスフォーマー変種(しばしばX-formerと呼ばれる)がこれらの分野のために開発された。
しかし、これらのモダリティ固有の変換の徹底的で体系的なレビューはいまだに欠けている。
モダリティ・コンバージョン(Modality Conversion)は、人間が知覚情報を統合して解釈する方法を模倣して、ある形態の表現から別の形式へのデータの変換を行う。
本稿では, テキスト, 視覚, 音声の一次モーダル性に適用されたトランスフォーマーモデルについて, アーキテクチャ, 変換手法, 応用について論じる。
この調査は、モーダリティ変換に関する文献を合成することにより、AIによるコンテンツ生成と理解の進歩におけるトランスフォーマーの汎用性とスケーラビリティの基盤となることを目的としている。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - A Survey on Large Language Models from Concept to Implementation [4.219910716090213]
近年のLarge Language Models (LLM) の進歩により、自然言語処理(NLP)アプリケーションの範囲が拡大している。
本稿では,これらのモデルの多面的応用について検討し,GPTシリーズに着目した。
この調査は、コーディングや問題解決といった従来のタスクに革命をもたらす人工知能(AI)駆動ツールの変革的な影響に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-27T19:35:41Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Advances in Medical Image Analysis with Vision Transformers: A
Comprehensive Review [6.953789750981636]
医療画像におけるトランスフォーマーの応用に関する百科事典のレビューを行う。
具体的には,医療画像解析タスクにおけるトランスフォーマー関連文献の体系的,徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-01-09T16:56:23Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - Efficient Transformers: A Survey [98.23264445730645]
トランスフォーマーモデルアーキテクチャは、言語、ビジョン、強化学習など、さまざまな領域で有効性があるため、近年大きな関心を集めている。
本稿では,最近の「X-former」モデルの大規模かつ思慮深い選択を特徴付ける。
論文 参考訳(メタデータ) (2020-09-14T20:38:14Z) - Variational Transformers for Diverse Response Generation [71.53159402053392]
変分変換器(VT)は、変分自己注意フィードフォワードシーケンスモデルである。
VTはトランスフォーマーの並列化性と大域的受容場計算とCVAEの変動特性を組み合わせる。
本稿では,1)大域潜伏変数を用いた談話レベルの多様性のモデル化,2)細粒潜伏変数の列によるトランスフォーマーデコーダの拡張,の2種類のVTについて検討する。
論文 参考訳(メタデータ) (2020-03-28T07:48:02Z) - Hierarchical Transformer Network for Utterance-level Emotion Recognition [0.0]
発話レベルの感情認識(ULER)における課題に対処する。
従来のテキスト分類問題とは異なり、このタスクは限られた数のデータセットでサポートされている。
我々は、低レベルトランスとして、変換器(BERT)からの双方向エンコーダ表現を事前訓練した言語モデルを用いる。
さらに、初めてモデルに話者埋め込みを追加し、モデルが話者間の相互作用を捉えられるようにします。
論文 参考訳(メタデータ) (2020-02-18T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。