論文の概要: $\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual
$\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal
$\mathbb{GR}$aphs
- arxiv url: http://arxiv.org/abs/2310.16590v1
- Date: Wed, 25 Oct 2023 12:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:54:35.108536
- Title: $\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual
$\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal
$\mathbb{GR}$aphs
- Title(参考訳): $\mathbb{vd}$-$\mathbb{gr}$:$\mathbb{v}$isual$\mathbb{d}$ialogをカスケードした空間-時空間マルチモーダル$\mathbb{gr}$aphs
- Authors: Adnen Abdessaied, Lei Shi, Andreas Bulling
- Abstract要約: 本稿では,事前学習言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせた新しいビジュアルダイアログモデルを提案する。
mathbbVD$-$mathbbGR$のコアとなるのは、空間的時間的マルチモーダルGNNとBERT層を交換する新しい統合メカニズムである。
我々は、$mathbbVD$-$mathbbGR$が4つのデータセットにまたがって新しい最先端の結果を達成することを示す。
- 参考スコア(独自算出の注目度): 11.748363745275617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose $\mathbb{VD}$-$\mathbb{GR}$ - a novel visual dialog model that
combines pre-trained language models (LMs) with graph neural networks (GNNs).
Prior works mainly focused on one class of models at the expense of the other,
thus missing out on the opportunity of combining their respective benefits. At
the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that
alternates between spatial-temporal multi-modal GNNs and BERT layers, and that
covers three distinct contributions: First, we use multi-modal GNNs to process
the features of each modality (image, question, and dialog history) and exploit
their local structures before performing BERT global attention. Second, we
propose hub-nodes that link to all other nodes within one modality graph,
allowing the model to propagate information from one GNN (modality) to the
other in a cascaded manner. Third, we augment the BERT hidden states with
fine-grained multi-modal GNN features before passing them to the next
$\mathbb{VD}$-$\mathbb{GR}$ layer. Evaluations on VisDial v1.0, VisDial v0.9,
VisDialConv, and VisPro show that $\mathbb{VD}$-$\mathbb{GR}$ achieves new
state-of-the-art results across all four datasets.
- Abstract(参考訳): 本稿では,事前学習言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせた新しい視覚対話モデルである$\mathbb{VD}$-$\mathbb{GR}$を提案する。
以前の作品は、主に他のモデルの犠牲にしながら、あるクラスのモデルに焦点を当てていたため、それぞれの利点を組み合わせる機会を欠いていた。
in the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that alternates between spatial-temporal multi-modal GNNs and BERT which cover that includes three different contributions: first, we use multi-modal GNNs to process the features of each modality (image, question, and dialog history) and exploit their local structure before performing BERT global attention。
第2に、1つのモダリティグラフ内の他のすべてのノードにリンクするハブノードを提案し、モデルが1つのGNN(モダリティ)から他のノードにケースド方式で情報を伝達できるようにする。
第3に、BERTの隠された状態を細粒度のマルチモーダルGNN機能で拡張し、次に$\mathbb{VD}$-$\mathbb{GR}$レイヤに渡す。
VisDial v1.0, VisDial v0.9, VisDialConv, VisPro の評価によれば、$\mathbb{VD}$-$\mathbb{GR}$ は4つのデータセットにまたがって新しい最先端の結果を達成する。
関連論文リスト
- Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - $O(k)$-Equivariant Dimensionality Reduction on Stiefel Manifolds [2.2334941294830095]
多くの実世界のデータセットは、高次元のスティーフェル多様体とグラスマン多様体に、それぞれ$V_k(mathbbRN)$と$Gr(k, mathbbRN)$で存在する。
我々は,PSC(Principal Stiefel Coordinates)と呼ばれるアルゴリズムを提案し,データ次元を$V_k(mathbbRN)$から$V_k(mathbbRN)$へ$O(k)$-equivariantな方法で還元する。
論文 参考訳(メタデータ) (2023-09-19T17:21:12Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Depth and Feature Learning are Provably Beneficial for Neural Network
Discriminators [3.04585143845864]
我々は,浅い識別器では識別できない分布を,深いGAN識別器が識別可能であることを示す。
これは、特徴学習が差別者にとって有益であることを確認する。
論文 参考訳(メタデータ) (2021-12-27T19:03:22Z) - Deep Learning in High Dimension: Neural Network Approximation of
Analytic Functions in $L^2(\mathbb{R}^d,\gamma_d)$ [0.0]
解析関数 $f:mathbbRdtomathbbR$ の式率を $L2(mathbbRd,gamma_d)$ のノルムで証明する。
特に、整数 $kgeq 2$ に対する ReLU と ReLU$k$ のアクティベーションを考える。
対数ガウス確率場入力による楕円型PDEの応答面に対する深いReLU-NNの表現速度境界を証明した。
論文 参考訳(メタデータ) (2021-11-13T09:54:32Z) - On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。
特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - Quantum double aspects of surface code models [77.34726150561087]
基礎となる量子double $D(G)$対称性を持つ正方格子上でのフォールトトレラント量子コンピューティングの北エフモデルを再検討する。
有限次元ホップ代数$H$に基づいて、我々の構成がどのように$D(H)$モデルに一般化するかを示す。
論文 参考訳(メタデータ) (2021-06-25T17:03:38Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。