論文の概要: Extending Compositional Attention Networks for Social Reasoning in
Videos
- arxiv url: http://arxiv.org/abs/2210.01191v1
- Date: Mon, 3 Oct 2022 19:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 12:57:44.753450
- Title: Extending Compositional Attention Networks for Social Reasoning in
Videos
- Title(参考訳): ビデオにおけるソーシャル推論のための構成注意ネットワークの拡張
- Authors: Christina Sartzetaki, Georgios Paraskevopoulos, Alexandros Potamianos
- Abstract要約: ビデオにおけるソーシャルインタラクションを推論するタスクのための,新しいディープアーキテクチャを提案する。
構成注意ネットワーク(MAC)の多段階推論機能を活用し,マルチモーダル拡張(MAC-X)を提案する。
- 参考スコア(独自算出の注目度): 84.12658971655253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel deep architecture for the task of reasoning about social
interactions in videos. We leverage the multi-step reasoning capabilities of
Compositional Attention Networks (MAC), and propose a multimodal extension
(MAC-X). MAC-X is based on a recurrent cell that performs iterative mid-level
fusion of input modalities (visual, auditory, text) over multiple reasoning
steps, by use of a temporal attention mechanism. We then combine MAC-X with
LSTMs for temporal input processing in an end-to-end architecture. Our ablation
studies show that the proposed MAC-X architecture can effectively leverage
multimodal input cues using mid-level fusion mechanisms. We apply MAC-X to the
task of Social Video Question Answering in the Social IQ dataset and obtain a
2.5% absolute improvement in terms of binary accuracy over the current
state-of-the-art.
- Abstract(参考訳): ビデオ内の社会的相互作用を推論するタスクのために,新しい深層アーキテクチャを提案する。
構成注意ネットワーク(MAC)の多段階推論機能を活用し,マルチモーダル拡張(MAC-X)を提案する。
MAC-Xは、時間的注意機構を用いて、複数の推論ステップ上で入力モダリティ(視覚、聴覚、テキスト)の反復的な中間レベル融合を実行するリカレントセルに基づいている。
次に、MAC-XとLSTMを組み合わせて、エンドツーエンドアーキテクチャで時間入力処理を行う。
提案するmac-xアーキテクチャは,中間核融合機構を用いてマルチモーダル入力を効果的に活用できることを示す。
我々は,ソーシャルiqデータセットにおけるソーシャルビデオ質問応答のタスクにmac-xを適用し,現状よりもバイナリ精度の絶対値が2.5%向上した。
関連論文リスト
- MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - MACO: A Modality Adversarial and Contrastive Framework for
Modality-missing Multi-modal Knowledge Graph Completion [18.188971531961663]
本稿では,MMKGCにおけるモダリティ欠落問題を解決するために,モダリティ対向・コントラッシブ・フレームワーク(MACO)を提案する。
MACOは、MMKGCモデルに組み込むことができる欠落したモダリティ特徴を生成するために、ジェネレータと識別器を逆さまに訓練する。
論文 参考訳(メタデータ) (2023-08-13T06:29:38Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement
Learning [45.98103968842858]
StarCraft Multi-Agent Challenge (SMAC)は、分散実行を伴う集中的なトレーニングのための人気のあるテストベッドである。
SMAC には複雑な *closed-loop* ポリシーを必要とする部分的な可観測性がないことを示す。
SMACv2は、シナリオが手続き的に生成され、エージェントが以前見つからなかった設定を一般化する必要があるベンチマークの新バージョンである。
論文 参考訳(メタデータ) (2022-12-14T20:15:19Z) - Accelerated Gradient Descent Learning over Multiple Access Fading
Channels [9.840290491547162]
N分散エッジデバイスとパラメータサーバ(PS)からなる無線ネットワークにおける分散学習問題を考える。
そこで我々は, ノイズフェージングMAC上での運動量に基づく勾配信号を用いて, 既存の手法と比較して収束率を向上する, 高速勾配多重アクセス(AGMA)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-26T19:51:40Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - XCM: An Explainable Convolutional Neural Network for Multivariate Time
Series Classification [64.41621835517189]
MTS分類のためのeXplainable Convolutional Neural NetworkであるXCMを提案する。
XCMは、新しいコンパクト畳み込みニューラルネットワークであり、入力データから直接、観測された変数と時間に関する情報を抽出する。
最初に、XCMは、大小のパブリックUEAデータセットにおいて最先端のMSS分類器よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-10T11:55:53Z) - Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization [77.21951145754065]
本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
論文 参考訳(メタデータ) (2020-08-04T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。