論文の概要: Compound Tokens: Channel Fusion for Vision-Language Representation
Learning
- arxiv url: http://arxiv.org/abs/2212.01447v1
- Date: Fri, 2 Dec 2022 21:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:45:32.018420
- Title: Compound Tokens: Channel Fusion for Vision-Language Representation
Learning
- Title(参考訳): 複合トークン:視覚言語表現学習のためのチャネル融合
- Authors: Maxwell Mbabilla Aladago and AJ Piergiovanni
- Abstract要約: 質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
- 参考スコア(独自算出の注目度): 36.19486792701684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an effective method for fusing visual-and-language representations
for several question answering tasks including visual question answering and
visual entailment. In contrast to prior works that concatenate unimodal
representations or use only cross-attention, we compose multimodal
representations via channel fusion. By fusing on the channels, the model is
able to more effectively align the tokens compared to standard methods. These
multimodal representations, which we call compound tokens are generated with
cross-attention transformer layers. First, vision tokens are used as queries to
retrieve compatible text tokens through cross-attention. We then chain the
vision tokens and the queried text tokens along the channel dimension. We call
the resulting representations compound tokens. A second group of compound
tokens are generated using an analogous process where the text tokens serve as
queries to the cross-attention layer. We concatenate all the compound tokens
for further processing with multimodal encoder. We demonstrate the
effectiveness of compound tokens using an encoder-decoder vision-language model
trained end-to-end in the open-vocabulary setting. Compound Tokens achieve
highly competitive performance across a range of question answering tasks
including GQA, VQA2.0, and SNLI-VE.
- Abstract(参考訳): 本稿では,視覚質問応答や視覚情報を含む複数の質問応答タスクに対して,視覚的表現と言語表現を融合する効果的な手法を提案する。
ユニモーダル表現を結合したり、クロス・アテンションのみを使用する以前の作品とは対照的に、チャンネル融合によってマルチモーダル表現を構成する。
チャネルをfusingすることで、モデルは標準的なメソッドと比較してトークンをより効果的に調整することができる。
複合トークンと呼ばれるこれらのマルチモーダル表現は、クロスアテンショントランスフォーマー層で生成される。
まず、視覚トークンは、相互接続によって互換性のあるテキストトークンを取得するためのクエリとして使用される。
次に視覚トークンとクエリされたテキストトークンをチャネル次元に沿ってチェーンします。
結果表現を複合トークンと呼びます。
第2の複合トークン群は、テキストトークンがクロスアテンション層へのクエリとして機能する類似プロセスを用いて生成される。
我々は、複合トークンを全て結合して、マルチモーダルエンコーダでさらに処理する。
オープンボキャブラリー設定におけるエンコーダ・デコーダビジョン言語モデルを用いた複合トークンの有効性を実証する。
複合トークンは、GQA、VQA2.0、SNLI-VEを含む様々な質問応答タスクで高い競争性能を達成する。
関連論文リスト
- Extract-and-Adaptation Network for 3D Interacting Hand Mesh Recovery [64.37035857740781]
我々は、EANet, extract-and-adaptation Network, EABlockをネットワークの主要コンポーネントとして提示する。
我々の2つの新しいトークンは、分離された2つの手の特徴の組み合わせによるものであるため、遠く離れたトークン問題に対してより堅牢である。
提案したEANetは、3Dインタラクションハンドベンチマークにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-05T04:18:03Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Token Manipulation Generative Adversarial Network for Text Generation [0.0]
我々は条件付きテキスト生成問題を,make-a-blank と fill-in-blank の2つのタスクに分解し,前者を拡張してより複雑なトークン操作を行う。
提案モデルでは,限界に対処するだけでなく,品質や多様性の面で性能を損なうことなく良好な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-05-06T13:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。