論文の概要: TxT: Crossmodal End-to-End Learning with Transformers
- arxiv url: http://arxiv.org/abs/2109.04422v1
- Date: Thu, 9 Sep 2021 17:12:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:32:57.610972
- Title: TxT: Crossmodal End-to-End Learning with Transformers
- Title(参考訳): TxT: トランスフォーマーによるクロスモーダルエンドツーエンド学習
- Authors: Jan-Martin O. Steitz, Jonas Pfeiffer, Iryna Gurevych, Stefan Roth
- Abstract要約: 複数のモダリティに対する推論は、ドメイン間のセマンティックな概念の整合性を必要とする。
TxTはトランスフォーマーベースのクロスモーダルパイプラインで、下流タスクで言語とビジュアルコンポーネントの両方を微調整できる。
本モデルは,マルチモーダル質問応答のためのエンド・ツー・エンド・ラーニングからかなりの利益を得る。
- 参考スコア(独自算出の注目度): 84.55645255507461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning over multiple modalities, e.g. in Visual Question Answering (VQA),
requires an alignment of semantic concepts across domains. Despite the
widespread success of end-to-end learning, today's multimodal pipelines by and
large leverage pre-extracted, fixed features from object detectors, typically
Faster R-CNN, as representations of the visual world. The obvious downside is
that the visual representation is not specifically tuned to the multimodal task
at hand. At the same time, while transformer-based object detectors have gained
popularity, they have not been employed in today's multimodal pipelines. We
address both shortcomings with TxT, a transformer-based crossmodal pipeline
that enables fine-tuning both language and visual components on the downstream
task in a fully end-to-end manner. We overcome existing limitations of
transformer-based detectors for multimodal reasoning regarding the integration
of global context and their scalability. Our transformer-based multimodal model
achieves considerable gains from end-to-end learning for multimodal question
answering.
- Abstract(参考訳): 複数のモダリティに対する推論(例)
Visual Question Answering (VQA)では、ドメイン間のセマンティック概念のアライメントが必要となる。
エンドツーエンド学習の広範な成功にもかかわらず、今日のマルチモーダルパイプラインは、視覚世界の表現として、オブジェクト検出器(通常より高速なr-cnn)から抽出された固定された機能を、大きく活用している。
明らかな欠点は、視覚表現が目の前のマルチモーダルタスクに特別に調整されていないことである。
同時に、トランスフォーマーベースの物体検出器が人気を集めているが、今日のマルチモーダルパイプラインでは採用されていない。
トランスフォーマーベースのクロスモーダルパイプラインであるTxTでは,下流タスク上の言語と視覚の両方を,完全なエンドツーエンドで微調整することが可能です。
我々は,グローバルコンテキストの統合と拡張性に関するマルチモーダル推論のためのトランスフォーマタの既存の制限を克服する。
トランスフォーマティブベースのマルチモーダルモデルは、マルチモーダル質問応答に対するエンドツーエンド学習からかなりの利益を得る。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Exchanging-based Multimodal Fusion with Transformer [19.398692598523454]
本稿では,マルチモーダル核融合の問題点について考察する。
近年,あるモダリティから他のモダリティへ学習した埋め込みを交換することを目的としたビジョン・ビジョン・フュージョンのための交換方式が提案されている。
本稿では,Transformer を用いたテキストビジョン融合のための交換型マルチモーダル融合モデル MuSE を提案する。
論文 参考訳(メタデータ) (2023-09-05T12:48:25Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment
Analysis in Videos [58.93586436289648]
マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。
本モデルは,非整合型マルチモーダル列に対する既存手法よりも優れ,整合型マルチモーダル列に対する強い性能を有する。
論文 参考訳(メタデータ) (2022-06-16T07:47:57Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - VL-InterpreT: An Interactive Visualization Tool for Interpreting
Vision-Language Transformers [47.581265194864585]
視覚とマルチモーダル変換器の内部機構はほとんど不透明である。
これらの変圧器の成功により、その内部動作を理解することがますます重要になっている。
マルチモーダルトランスにおける注目や隠された表現を解釈するための対話型可視化を提供するVL-InterpreTを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:25:35Z) - StreaMulT: Streaming Multimodal Transformer for Heterogeneous and
Arbitrary Long Sequential Data [0.0]
StreaMulTは、クロスモーダルアテンションとメモリバンクに依存するストリーミングマルチモーダルトランスであり、トレーニング時に任意に長い入力シーケンスを処理し、推論時にストリーミング形式で実行する。
StreaMulTは、Multimodal Sentiment Analysisタスク用のCMU-MOSEIデータセットの最先端メトリクスを改善し、他のマルチモーダルモデルよりもはるかに長い入力を処理することができる。
論文 参考訳(メタデータ) (2021-10-15T11:32:17Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。