論文の概要: $\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual
$\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal
$\mathbb{GR}$aphs
- arxiv url: http://arxiv.org/abs/2310.16590v1
- Date: Wed, 25 Oct 2023 12:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:54:35.108536
- Title: $\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual
$\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal
$\mathbb{GR}$aphs
- Title(参考訳): $\mathbb{vd}$-$\mathbb{gr}$:$\mathbb{v}$isual$\mathbb{d}$ialogをカスケードした空間-時空間マルチモーダル$\mathbb{gr}$aphs
- Authors: Adnen Abdessaied, Lei Shi, Andreas Bulling
- Abstract要約: 本稿では,事前学習言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせた新しいビジュアルダイアログモデルを提案する。
mathbbVD$-$mathbbGR$のコアとなるのは、空間的時間的マルチモーダルGNNとBERT層を交換する新しい統合メカニズムである。
我々は、$mathbbVD$-$mathbbGR$が4つのデータセットにまたがって新しい最先端の結果を達成することを示す。
- 参考スコア(独自算出の注目度): 11.748363745275617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose $\mathbb{VD}$-$\mathbb{GR}$ - a novel visual dialog model that
combines pre-trained language models (LMs) with graph neural networks (GNNs).
Prior works mainly focused on one class of models at the expense of the other,
thus missing out on the opportunity of combining their respective benefits. At
the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that
alternates between spatial-temporal multi-modal GNNs and BERT layers, and that
covers three distinct contributions: First, we use multi-modal GNNs to process
the features of each modality (image, question, and dialog history) and exploit
their local structures before performing BERT global attention. Second, we
propose hub-nodes that link to all other nodes within one modality graph,
allowing the model to propagate information from one GNN (modality) to the
other in a cascaded manner. Third, we augment the BERT hidden states with
fine-grained multi-modal GNN features before passing them to the next
$\mathbb{VD}$-$\mathbb{GR}$ layer. Evaluations on VisDial v1.0, VisDial v0.9,
VisDialConv, and VisPro show that $\mathbb{VD}$-$\mathbb{GR}$ achieves new
state-of-the-art results across all four datasets.
- Abstract(参考訳): 本稿では,事前学習言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせた新しい視覚対話モデルである$\mathbb{VD}$-$\mathbb{GR}$を提案する。
以前の作品は、主に他のモデルの犠牲にしながら、あるクラスのモデルに焦点を当てていたため、それぞれの利点を組み合わせる機会を欠いていた。
in the core of $\mathbb{VD}$-$\mathbb{GR}$ is a novel integration mechanism that alternates between spatial-temporal multi-modal GNNs and BERT which cover that includes three different contributions: first, we use multi-modal GNNs to process the features of each modality (image, question, and dialog history) and exploit their local structure before performing BERT global attention。
第2に、1つのモダリティグラフ内の他のすべてのノードにリンクするハブノードを提案し、モデルが1つのGNN(モダリティ)から他のノードにケースド方式で情報を伝達できるようにする。
第3に、BERTの隠された状態を細粒度のマルチモーダルGNN機能で拡張し、次に$\mathbb{VD}$-$\mathbb{GR}$レイヤに渡す。
VisDial v1.0, VisDial v0.9, VisDialConv, VisPro の評価によれば、$\mathbb{VD}$-$\mathbb{GR}$ は4つのデータセットにまたがって新しい最先端の結果を達成する。
関連論文リスト
- New advances in universal approximation with neural networks of minimal width [4.424170214926035]
リークReLUアクティベーションを持つオートエンコーダは$Lp$関数の普遍近似器であることを示す。
我々は,滑らかな可逆ニューラルネットワークが$Lp(mathbbRd,mathbbRd)$をコンパクト化できることを示す。
論文 参考訳(メタデータ) (2024-11-13T16:17:16Z) - Deep Neural Networks: Multi-Classification and Universal Approximation [0.0]
我々は,幅2ドル,深さ2N+4M-1$のReLUディープニューラルネットワークが,$N$要素からなる任意のデータセットに対して有限標本記憶を達成できることを実証した。
また、$W1,p$関数を近似するための深さ推定と$Lp(Omega;mathbbRm)$ for $mgeq1$を近似するための幅推定も提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の等方的ガウスデータの下で勾配降下学習の問題を考察する。
SGDアルゴリズムで最適化された2層ニューラルネットワークは、サンプル付き任意のリンク関数の$f_*$を学習し、実行時の複雑さは$n asymp T asymp C(q) cdot dであることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Provably learning a multi-head attention layer [55.2904547651831]
マルチヘッドアテンション層は、従来のフィードフォワードモデルとは分離したトランスフォーマーアーキテクチャの重要な構成要素の1つである。
本研究では,ランダムな例から多面的注意層を実証的に学習する研究を開始する。
最悪の場合、$m$に対する指数的依存は避けられないことを示す。
論文 参考訳(メタデータ) (2024-02-06T15:39:09Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Neural Networks Efficiently Learn Low-Dimensional Representations with
SGD [22.703825902761405]
SGDで訓練されたReLU NNは、主方向を回復することで、$y=f(langleboldsymbolu,boldsymbolxrangle) + epsilon$という形の単一インデックスターゲットを学習できることを示す。
また、SGDによる近似低ランク構造を用いて、NNに対して圧縮保証を提供する。
論文 参考訳(メタデータ) (2022-09-29T15:29:10Z) - Deep Learning in High Dimension: Neural Network Approximation of
Analytic Functions in $L^2(\mathbb{R}^d,\gamma_d)$ [0.0]
解析関数 $f:mathbbRdtomathbbR$ の式率を $L2(mathbbRd,gamma_d)$ のノルムで証明する。
特に、整数 $kgeq 2$ に対する ReLU と ReLU$k$ のアクティベーションを考える。
対数ガウス確率場入力による楕円型PDEの応答面に対する深いReLU-NNの表現速度境界を証明した。
論文 参考訳(メタデータ) (2021-11-13T09:54:32Z) - On minimal representations of shallow ReLU networks [0.0]
f$の最小表現は$n$、$n+1$または$n+2$のどちらかを使用する。
特に入力層が一次元の場合、最小表現は常に少なくとも$n+1$のニューロンで使用されるが、高次元設定では$n+2$のニューロンを必要とする関数が存在する。
論文 参考訳(メタデータ) (2021-08-12T10:22:24Z) - Quantum double aspects of surface code models [77.34726150561087]
基礎となる量子double $D(G)$対称性を持つ正方格子上でのフォールトトレラント量子コンピューティングの北エフモデルを再検討する。
有限次元ホップ代数$H$に基づいて、我々の構成がどのように$D(H)$モデルに一般化するかを示す。
論文 参考訳(メタデータ) (2021-06-25T17:03:38Z) - Learning Over-Parametrized Two-Layer ReLU Neural Networks beyond NTK [58.5766737343951]
2層ニューラルネットワークを学習する際の降下のダイナミクスについて考察する。
過度にパラメータ化された2層ニューラルネットワークは、タンジェントサンプルを用いて、ほとんどの地上で勾配損失を許容的に学習できることを示す。
論文 参考訳(メタデータ) (2020-07-09T07:09:28Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。