論文の概要: Modular Blended Attention Network for Video Question Answering
- arxiv url: http://arxiv.org/abs/2311.12866v1
- Date: Thu, 2 Nov 2023 14:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 00:22:16.582855
- Title: Modular Blended Attention Network for Video Question Answering
- Title(参考訳): ビデオ質問応答のためのモジュールブレンド注意ネットワーク
- Authors: Mingjie Zhou
- Abstract要約: 本稿では,再利用可能で構成可能なニューラルユニットを用いた問題解決手法を提案する。
一般的に使用されている3つのデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 1.131316248570352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal machine learning tasks, it is due to the complexity of the
assignments that the network structure, in most cases, is assembled in a
sophisticated way. The holistic architecture can be separated into several
logical parts according to the respective ends that the modules are devised to
achieve. As the number of modalities of information representation increases,
constructing ad hoc subnetworks for processing the data from divergent
modalities while mediating the fusion of different information types has become
a cumbersome and expensive problem. In this paper, we present an approach to
facilitate the question with a reusable and composable neural unit; by
connecting the units in series or parallel, the arduous network constructing of
multimodal machine learning tasks will be accomplished in a much
straightforward way. Additionally, through parameter sharing (weights
replication) among the units, the space complexity will be significantly
reduced. We have conducted experiments on three commonly used datasets; our
method achieves impressive performance compared to several video QA baselines.
- Abstract(参考訳): マルチモーダル機械学習タスクでは、ネットワーク構造が多くの場合、洗練された方法で組み立てられるという割り当ての複雑さが原因である。
全体的アーキテクチャは、モジュールが達成するために考案された各端に従って、いくつかの論理的部分に分けられる。
情報表現のモダリティの数が増えるにつれて、異なる情報種の融合を媒介しながらデータを分散したモダリティからデータを処理するアドホックサブネットワークの構築が困難で高価な問題となっている。
本稿では, 再利用可能な, 構成可能なニューラルユニットを用いて, 繰り返しあるいは並列にユニットを接続することで, マルチモーダル機械学習タスクを構成する頑健なネットワークを, より簡単な方法で実現することを提案する。
さらに、ユニット間のパラメータ共有(重み付けレプリケーション)により、空間の複雑さが大幅に低減される。
提案手法は,複数のビデオQAベースラインと比較して,優れた性能を発揮する。
関連論文リスト
- General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Complexity of Representations in Deep Learning [2.0219767626075438]
データ複雑性の観点からクラスを分離する際の学習表現の有効性を分析する。
データ複雑性がネットワークを通じてどのように進化するか、トレーニング中にどのように変化するのか、そして、ネットワーク設計とトレーニングサンプルの可用性によってどのように影響を受けるのかを示す。
論文 参考訳(メタデータ) (2022-09-01T15:20:21Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Multi-Task Learning with Deep Neural Networks: A Survey [0.0]
マルチタスク学習(Multi-task learning、MTL)は、複数のタスクを共有モデルで同時に学習する機械学習のサブフィールドである。
深層ニューラルネットワークにおけるマルチタスク学習手法の概要を述べる。
論文 参考訳(メタデータ) (2020-09-10T19:31:04Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Revealing the Invisible with Model and Data Shrinking for
Composite-database Micro-expression Recognition [49.463864096615254]
入力複雑性とモデル複雑性を含む学習複雑性の影響を分析する。
より浅層構造と低分解能入力データを探索する再帰畳み込みネットワーク(RCN)を提案する。
学習可能なパラメータを増やさなくてもRCNと統合できる3つのパラメータフリーモジュールを開発した。
論文 参考訳(メタデータ) (2020-06-17T06:19:24Z) - Deep Multimodal Neural Architecture Search [178.35131768344246]
様々なマルチモーダル学習タスクのための一般化された深層マルチモーダルニューラルアーキテクチャサーチ(MMnas)フレームワークを考案する。
マルチモーダル入力が与えられたら、まずプリミティブ演算のセットを定義し、その後、ディープエンコーダ-デコーダベースの統一バックボーンを構築する。
統合されたバックボーンの上にタスク固有のヘッドをアタッチして、異なるマルチモーダル学習タスクに取り組む。
論文 参考訳(メタデータ) (2020-04-25T07:00:32Z) - Multiresolution Convolutional Autoencoders [5.0169726108025445]
本稿では,3つの数学的アーキテクチャを統合し,活用する多分解能畳み込みオートエンコーダアーキテクチャを提案する。
基礎学習技術を適用して、以前のトレーニングステップから学んだ情報を、より大規模なネットワークに迅速に転送できるようにする。
合成例と実世界の空間データに関する数値実験により,性能向上を図示する。
論文 参考訳(メタデータ) (2020-04-10T08:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。