論文の概要: Auto-Parsing Network for Image Captioning and Visual Question Answering
- arxiv url: http://arxiv.org/abs/2108.10568v1
- Date: Tue, 24 Aug 2021 08:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:18:39.880536
- Title: Auto-Parsing Network for Image Captioning and Visual Question Answering
- Title(参考訳): 画像キャプションと視覚的質問応答のための自動パシングネットワーク
- Authors: Xu Yang and Chongyang Gao and Hanwang Zhang and Jianfei Cai
- Abstract要約: 本稿では,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワーク(APN)を提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
- 参考スコア(独自算出の注目度): 101.77688388554097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an Auto-Parsing Network (APN) to discover and exploit the input
data's hidden tree structures for improving the effectiveness of the
Transformer-based vision-language systems. Specifically, we impose a
Probabilistic Graphical Model (PGM) parameterized by the attention operations
on each self-attention layer to incorporate sparse assumption. We use this PGM
to softly segment an input sequence into a few clusters where each cluster can
be treated as the parent of the inside entities. By stacking these PGM
constrained self-attention layers, the clusters in a lower layer compose into a
new sequence, and the PGM in a higher layer will further segment this sequence.
Iteratively, a sparse tree can be implicitly parsed, and this tree's
hierarchical knowledge is incorporated into the transformed embeddings, which
can be used for solving the target vision-language tasks. Specifically, we
showcase that our APN can strengthen Transformer based networks in two major
vision-language tasks: Captioning and Visual Question Answering. Also, a PGM
probability-based parsing algorithm is developed by which we can discover what
the hidden structure of input is during the inference.
- Abstract(参考訳): 本稿では,トランスフォーマーに基づく視覚言語システムの有効性を向上させるために,入力データの隠れ木構造を発見し,活用するための自動パーシングネットワークを提案する。
具体的には、各自己注意層における注意操作によってパラメータ化された確率的グラフモデル(PGM)を課し、スパース仮定を組み込む。
我々はこのPGMを用いて、入力シーケンスをいくつかのクラスタにソフトに分割し、各クラスタを内部エンティティの親として扱う。
これらの制約された自己アテンション層を積み重ねることで、下位層のクラスタは新しいシーケンスに構成され、上位層のPGMはこのシーケンスをさらにセグメンテーションする。
反復的に、スパースツリーを暗黙的に解析することができ、このツリーの階層的な知識は変換された埋め込みに組み込まれ、ターゲットの視覚言語タスクの解決に使用できる。
具体的には、我々のAPNがTransformerベースのネットワークを2つの主要な視覚言語タスクであるCaptioningとVisual Question Answeringで強化できることを示します。
また、PGM確率に基づく解析アルゴリズムを開発し、推論中に入力の隠れ構造が何であるかを知ることができる。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based
Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。
具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。
提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-06T15:04:45Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - Exploring and Exploiting Multi-Granularity Representations for Machine
Reading Comprehension [13.191437539419681]
適応的双方向注意カプセルネットワーク(ABA-Net)という新しい手法を提案する。
ABA-Netは、異なるレベルのソース表現を予測子に適応的に活用する。
私たちはSQuAD 1.0データセットに新しい最先端パフォーマンスを設定しました。
論文 参考訳(メタデータ) (2022-08-18T10:14:32Z) - Graph Ordering Attention Networks [22.468776559433614]
グラフニューラルネットワーク(GNN)は、グラフ構造化データに関わる多くの問題でうまく使われている。
近隣ノード間のインタラクションをキャプチャする新しいGNNコンポーネントであるグラフ順序付け注意層(GOAT)を導入する。
GOATレイヤは、複雑な情報をキャプチャするグラフメトリクスのモデリングにおけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2022-04-11T18:13:19Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - An evidential classifier based on Dempster-Shafer theory and deep
learning [6.230751621285322]
Dempster-Shafer(DS)理論に基づく新しい分類システムと、集合値分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
画像認識,信号処理,セマンティック-リレーションシップ分類タスクに関する実験では,深部CNN,DS層,期待されるユーティリティ層の組み合わせにより,分類精度の向上が図られている。
論文 参考訳(メタデータ) (2021-03-25T01:29:05Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。