論文の概要: Consistent Multiple Sequence Decoding
- arxiv url: http://arxiv.org/abs/2004.00760v2
- Date: Wed, 15 Apr 2020 21:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 12:36:55.432122
- Title: Consistent Multiple Sequence Decoding
- Title(参考訳): 一貫性多重シーケンス復号法
- Authors: Bicheng Xu, Leonid Sigal
- Abstract要約: 一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
- 参考スコア(独自算出の注目度): 36.46573114422263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence decoding is one of the core components of most visual-lingual
models. However, typical neural decoders when faced with decoding multiple,
possibly correlated, sequences of tokens resort to simple independent decoding
schemes. In this paper, we introduce a consistent multiple sequence decoding
architecture, which is while relatively simple, is general and allows for
consistent and simultaneous decoding of an arbitrary number of sequences. Our
formulation utilizes a consistency fusion mechanism, implemented using message
passing in a Graph Neural Network (GNN), to aggregate context from related
decoders. This context is then utilized as a secondary input, in addition to
previously generated output, to make a prediction at a given step of decoding.
Self-attention, in the GNN, is used to modulate the fusion mechanism locally at
each node and each step in the decoding process. We show the efficacy of our
consistent multiple sequence decoder on the task of dense relational image
captioning and illustrate state-of-the-art performance (+ 5.2% in mAP) on the
task. More importantly, we illustrate that the decoded sentences, for the same
regions, are more consistent (improvement of 9.5%), while across images and
regions maintain diversity.
- Abstract(参考訳): シーケンスデコーディングは、ほとんどの視覚言語モデルのコアコンポーネントの1つである。
しかし、典型的なニューラルデコーダは、複数の、おそらく相関関係のあるトークンのシーケンスをデコードする場合、単純な独立デコードスキームに依存する。
本稿では,比較的単純ながら汎用的で,任意の数のシーケンスを一貫した同時復号化が可能な,一貫した多重シーケンス復号化アーキテクチャを提案する。
我々の定式化は、グラフニューラルネットワーク(GNN)でメッセージパッシングを用いて実装された一貫性融合機構を用いて、関連するデコーダのコンテキストを集約する。
このコンテキストは、予め生成された出力に加えて二次入力として利用され、デコーディングの特定のステップで予測される。
GNNでは、各ノードとデコードプロセスの各ステップで融合機構を局所的に変調するためにセルフアテンションが使用される。
本稿では,高密度リレーショナル画像キャプションタスクにおける一貫した多重シーケンスデコーダの有効性を示し,そのタスクにおける最先端性能(mAPの5.2%以上)を示す。
より重要なことに、デコードされた文章は、同じ領域において、より一貫性があり(9.5%の改善)、一方、画像と領域は多様性を維持している。
関連論文リスト
- A Framework for Bidirectional Decoding: Case Study in Morphological
Inflection [4.602447284133507]
外部からシーケンスを復号するフレームワークを提案する。
各ステップで、モデルは左、右にトークンを生成するか、左と右のシーケンスを結合するかを選択します。
我々のモデルは2022年と2023年の共有タスクに最先端のSOTA(State-of-the-art)を設定し、それぞれ平均精度4.7ポイントと2.7ポイント以上で次の最高のシステムを上回った。
論文 参考訳(メタデータ) (2023-05-21T22:08:31Z) - Learning to Compose Representations of Different Encoder Layers towards
Improving Compositional Generalization [29.32436551704417]
textscCompoSition (textbfCompose textbfSyntactic and Semanttextbfic Representatextbftions)を提案する。
textscCompoSitionは、2つの総合的で現実的なベンチマークで競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-20T11:16:59Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Transformer with Tree-order Encoding for Neural Program Generation [8.173517923612426]
木に基づく位置エンコーディングと、トランスフォーマーのための自然言語サブワード語彙の共有を導入する。
その結果,木に基づく位置符号化と自然言語サブワード語彙の共有を併用することで,逐次的位置符号化よりも生成性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-05-30T12:27:48Z) - UniXcoder: Unified Cross-Modal Pre-training for Code Representation [65.6846553962117]
プログラミング言語のためのクロスモーダル事前学習モデルUniXcoderを提案する。
木の構造情報を全て保持するシーケンス構造でASTを変換する1対1のマッピング手法を提案する。
我々は,UniXcoderを9つのデータセット上で5つのコード関連タスクで評価する。
論文 参考訳(メタデータ) (2022-03-08T04:48:07Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z) - Rethinking and Improving Natural Language Generation with Layer-Wise
Multi-View Decoding [59.48857453699463]
シーケンシャル・ツー・シーケンス学習では、デコーダは注意機構に依存してエンコーダから情報を効率的に抽出する。
近年の研究では、異なるエンコーダ層からの表現を多様なレベルの情報に利用することが提案されている。
本稿では, 各デコーダ層に対して, グローバルビューとして機能する最後のエンコーダ層からの表現とともに, ソースシーケンスの立体視のために他のエンコーダ層からのデコーダ層からのデコーダ層を補足するレイヤワイド・マルチビューデコーダを提案する。
論文 参考訳(メタデータ) (2020-05-16T20:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。