論文の概要: Compound Tokens: Channel Fusion for Vision-Language Representation
Learning
- arxiv url: http://arxiv.org/abs/2212.01447v1
- Date: Fri, 2 Dec 2022 21:09:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:45:32.018420
- Title: Compound Tokens: Channel Fusion for Vision-Language Representation
Learning
- Title(参考訳): 複合トークン:視覚言語表現学習のためのチャネル融合
- Authors: Maxwell Mbabilla Aladago and AJ Piergiovanni
- Abstract要約: 質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
- 参考スコア(独自算出の注目度): 36.19486792701684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an effective method for fusing visual-and-language representations
for several question answering tasks including visual question answering and
visual entailment. In contrast to prior works that concatenate unimodal
representations or use only cross-attention, we compose multimodal
representations via channel fusion. By fusing on the channels, the model is
able to more effectively align the tokens compared to standard methods. These
multimodal representations, which we call compound tokens are generated with
cross-attention transformer layers. First, vision tokens are used as queries to
retrieve compatible text tokens through cross-attention. We then chain the
vision tokens and the queried text tokens along the channel dimension. We call
the resulting representations compound tokens. A second group of compound
tokens are generated using an analogous process where the text tokens serve as
queries to the cross-attention layer. We concatenate all the compound tokens
for further processing with multimodal encoder. We demonstrate the
effectiveness of compound tokens using an encoder-decoder vision-language model
trained end-to-end in the open-vocabulary setting. Compound Tokens achieve
highly competitive performance across a range of question answering tasks
including GQA, VQA2.0, and SNLI-VE.
- Abstract(参考訳): 本稿では,視覚質問応答や視覚情報を含む複数の質問応答タスクに対して,視覚的表現と言語表現を融合する効果的な手法を提案する。
ユニモーダル表現を結合したり、クロス・アテンションのみを使用する以前の作品とは対照的に、チャンネル融合によってマルチモーダル表現を構成する。
チャネルをfusingすることで、モデルは標準的なメソッドと比較してトークンをより効果的に調整することができる。
複合トークンと呼ばれるこれらのマルチモーダル表現は、クロスアテンショントランスフォーマー層で生成される。
まず、視覚トークンは、相互接続によって互換性のあるテキストトークンを取得するためのクエリとして使用される。
次に視覚トークンとクエリされたテキストトークンをチャネル次元に沿ってチェーンします。
結果表現を複合トークンと呼びます。
第2の複合トークン群は、テキストトークンがクロスアテンション層へのクエリとして機能する類似プロセスを用いて生成される。
我々は、複合トークンを全て結合して、マルチモーダルエンコーダでさらに処理する。
オープンボキャブラリー設定におけるエンコーダ・デコーダビジョン言語モデルを用いた複合トークンの有効性を実証する。
複合トークンは、GQA、VQA2.0、SNLI-VEを含む様々な質問応答タスクで高い競争性能を達成する。
関連論文リスト
- ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。
MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。
提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文 参考訳(メタデータ) (2024-09-02T10:49:10Z) - Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation [2.668651175000492]
記号音楽は複合トークンで表現され、それぞれのトークンはいくつかの異なるサブトークンから構成される。
我々はNested Music Transformer(NMT)を紹介した。これは、フラット化トークンの処理と似ているが、メモリ使用量の少ない複合トークンを自動回帰的に復号するアーキテクチャである。
実験の結果,複合トークンにNMTを適用することで,MAESTROデータセットから様々なシンボリック音楽データセットや離散音声トークンを処理する際の難易度が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-02T11:02:38Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。