Fugu-MT 論文翻訳(概要): Compound Tokens: Channel Fusion for Vision-Language Representation Learning

論文の概要: Compound Tokens: Channel Fusion for Vision-Language Representation Learning

arxiv url: http://arxiv.org/abs/2212.01447v1
Date: Fri, 2 Dec 2022 21:09:52 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-06 15:45:32.018420
Title: Compound Tokens: Channel Fusion for Vision-Language Representation Learning
Title（参考訳）: 複合トークン:視覚言語表現学習のためのチャネル融合
Authors: Maxwell Mbabilla Aladago and AJ Piergiovanni
Abstract要約: 質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
参考スコア（独自算出の注目度）: 36.19486792701684
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present an effective method for fusing visual-and-language representations for several question answering tasks including visual question answering and visual entailment. In contrast to prior works that concatenate unimodal representations or use only cross-attention, we compose multimodal representations via channel fusion. By fusing on the channels, the model is able to more effectively align the tokens compared to standard methods. These multimodal representations, which we call compound tokens are generated with cross-attention transformer layers. First, vision tokens are used as queries to retrieve compatible text tokens through cross-attention. We then chain the vision tokens and the queried text tokens along the channel dimension. We call the resulting representations compound tokens. A second group of compound tokens are generated using an analogous process where the text tokens serve as queries to the cross-attention layer. We concatenate all the compound tokens for further processing with multimodal encoder. We demonstrate the effectiveness of compound tokens using an encoder-decoder vision-language model trained end-to-end in the open-vocabulary setting. Compound Tokens achieve highly competitive performance across a range of question answering tasks including GQA, VQA2.0, and SNLI-VE.
Abstract（参考訳）: 本稿では,視覚質問応答や視覚情報を含む複数の質問応答タスクに対して,視覚的表現と言語表現を融合する効果的な手法を提案する。ユニモーダル表現を結合したり、クロス・アテンションのみを使用する以前の作品とは対照的に、チャンネル融合によってマルチモーダル表現を構成する。チャネルをfusingすることで、モデルは標準的なメソッドと比較してトークンをより効果的に調整することができる。複合トークンと呼ばれるこれらのマルチモーダル表現は、クロスアテンショントランスフォーマー層で生成される。まず、視覚トークンは、相互接続によって互換性のあるテキストトークンを取得するためのクエリとして使用される。次に視覚トークンとクエリされたテキストトークンをチャネル次元に沿ってチェーンします。結果表現を複合トークンと呼びます。第2の複合トークン群は、テキストトークンがクロスアテンション層へのクエリとして機能する類似プロセスを用いて生成される。我々は、複合トークンを全て結合して、マルチモーダルエンコーダでさらに処理する。オープンボキャブラリー設定におけるエンコーダ・デコーダビジョン言語モデルを用いた複合トークンの有効性を実証する。複合トークンは、GQA、VQA2.0、SNLI-VEを含む様々な質問応答タスクで高い競争性能を達成する。

関連論文リスト

Token Coordinated Prompt Attention is Needed for Visual Prompting [28.018671250553137]
本稿では,Token Coordinated Prompt Attention (TCPA)モジュールを提案する。我々はこれらのプロンプトをCLS PromptsとImage Promptsに切り離し、注意機構を通じてCLSトークンや画像トークンとのみ対話する。異なる画像トークンは異なる画像パッチに対応し、多様な情報を含むので、一致したプロンプトを個別のトークンに自動的に割り当てる。
論文参考訳（メタデータ） (2025-05-05T06:59:26Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。 MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation [2.668651175000492]
記号音楽は複合トークンで表現され、それぞれのトークンはいくつかの異なるサブトークンから構成される。我々はNested Music Transformer(NMT)を紹介した。これは、フラット化トークンの処理と似ているが、メモリ使用量の少ない複合トークンを自動回帰的に復号するアーキテクチャである。実験の結果,複合トークンにNMTを適用することで,MAESTROデータセットから様々なシンボリック音楽データセットや離散音声トークンを処理する際の難易度が向上することがわかった。
論文参考訳（メタデータ） (2024-08-02T11:02:38Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。 SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文参考訳（メタデータ） (2024-05-24T13:35:56Z)
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文参考訳（メタデータ） (2024-05-16T03:26:06Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Improving Visual Quality of Image Synthesis by A Token-based Generator with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文参考訳（メタデータ） (2021-11-05T12:57:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。