論文の概要: Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization
- arxiv url: http://arxiv.org/abs/2008.01403v2
- Date: Thu, 13 Aug 2020 01:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:59:53.214345
- Title: Jointly Cross- and Self-Modal Graph Attention Network for Query-Based
Moment Localization
- Title(参考訳): 問合せ型モーメントローカライゼーションのための共用クロスグラフとセルフモードグラフアテンションネットワーク
- Authors: Daizong Liu, Xiaoye Qu, Xiao-Yang Liu, Jianfeng Dong, Pan Zhou,
Zichuan Xu
- Abstract要約: 本稿では,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ注意ネットワーク(CSMGAN)を提案する。
CSMGANは2つのモード間の高次相互作用を効果的に捉えることができ、より正確な局所化を可能にします。
- 参考スコア(独自算出の注目度): 77.21951145754065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Query-based moment localization is a new task that localizes the best matched
segment in an untrimmed video according to a given sentence query. In this
localization task, one should pay more attention to thoroughly mine visual and
linguistic information. To this end, we propose a novel Cross- and Self-Modal
Graph Attention Network (CSMGAN) that recasts this task as a process of
iterative messages passing over a joint graph. Specifically, the joint graph
consists of Cross-Modal interaction Graph (CMG) and Self-Modal relation Graph
(SMG), where frames and words are represented as nodes, and the relations
between cross- and self-modal node pairs are described by an attention
mechanism. Through parametric message passing, CMG highlights relevant
instances across video and sentence, and then SMG models the pairwise relation
inside each modality for frame (word) correlating. With multiple layers of such
a joint graph, our CSMGAN is able to effectively capture high-order
interactions between two modalities, thus enabling a further precise
localization. Besides, to better comprehend the contextual details in the
query, we develop a hierarchical sentence encoder to enhance the query
understanding. Extensive experiments on four public datasets demonstrate the
effectiveness of our proposed model, and GCSMAN significantly outperforms the
state-of-the-arts.
- Abstract(参考訳): クエリベースのモーメントローカライゼーションは、与えられた文クエリに従って、未トリミングビデオ内の最適なマッチングセグメントをローカライズする新しいタスクである。
このローカライゼーションタスクでは、視覚情報や言語情報を徹底的に掘り下げるためにもっと注意を払うべきである。
この目的のために,共同グラフを渡る反復的メッセージのプロセスとして,このタスクをリキャストするクロスモーダルグラフ・アテンション・ネットワーク(CSMGAN)を提案する。
具体的には、クロスモーダル相互作用グラフ(cmg)と自己モーダル関係グラフ(smg)とからなるジョイントグラフであって、フレームとワードをノードとして表現し、クロスモーダルノード対と自己モーダルノード対の関係を注意機構により記述する。
パラメトリックメッセージパッシングを通じて、CMGはビデオと文間で関連するインスタンスを強調し、SMGはフレーム(単語)に関連する各モダリティ内のペアワイズ関係をモデル化する。
このようなジョイントグラフの複数の層で、CSMGANは2つのモード間の高次相互作用を効果的に捉え、より正確な局所化を可能にします。
さらに,クエリの文脈的詳細をより深く理解するために,クエリ理解を強化する階層型文エンコーダを開発した。
4つの公開データセットに対する大規模な実験により提案したモデルの有効性が示され、GCSMANは最先端技術よりも優れていた。
関連論文リスト
- Composing Object Relations and Attributes for Image-Text Matching [70.47747937665987]
この研究は、シーングラフを利用して、リレーショナルエッジで相互接続されたオブジェクトや属性のノードでキャプションを表現するデュアルエンコーダ画像テキストマッチングモデルを導入する。
本モデルは,オブジェクト属性とオブジェクトオブジェクトの意味関係を効率的に符号化し,ロバストかつ高速な性能システムを実現する。
論文 参考訳(メタデータ) (2024-06-17T17:56:01Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Graph Ordering Attention Networks [22.468776559433614]
グラフニューラルネットワーク(GNN)は、グラフ構造化データに関わる多くの問題でうまく使われている。
近隣ノード間のインタラクションをキャプチャする新しいGNNコンポーネントであるグラフ順序付け注意層(GOAT)を導入する。
GOATレイヤは、複雑な情報をキャプチャするグラフメトリクスのモデリングにおけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2022-04-11T18:13:19Z) - DigNet: Digging Clues from Local-Global Interactive Graph for
Aspect-level Sentiment Classification [0.685316573653194]
アスペクトレベルの感情分類(ASC)では、最先端モデルは構文グラフまたは関係グラフをエンコードする。
我々は,対話的なエッジを通じて2つのグラフを縫い合わせることで,その利点をマージする,新しいローカル・グローバル・インタラクティブグラフを設計する。
本稿では,DigNetと呼ばれる新しいニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-04T05:34:02Z) - r-GAT: Relational Graph Attention Network for Multi-Relational Graphs [8.529080554172692]
Graph Attention Network (GAT)は、単純な無方向性グラフと単一のリレーショナルグラフデータのみをモデル化することに焦点を当てている。
マルチチャネルエンティティ表現を学習するための関係グラフアテンションネットワークであるr-GATを提案する。
リンク予測とエンティティ分類タスクの実験は、我々のr-GATがマルチリレーショナルグラフを効果的にモデル化できることを示します。
論文 参考訳(メタデータ) (2021-09-13T12:43:00Z) - Multi Scale Temporal Graph Networks For Skeleton-based Action
Recognition [5.970574258839858]
グラフ畳み込みネットワーク(GCN)は、関連するノードの特徴を効果的に捉え、モデルの性能を向上させる。
まず、時間的特徴と空間的特徴の整合性を無視し、特徴をノード単位とフレーム単位で抽出する。
本稿では,行動認識のための時間グラフネットワーク(TGN)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-05T08:08:25Z) - VLG-Net: Video-Language Graph Matching Network for Video Grounding [57.6661145190528]
ビデオにおける言語クエリのグラウンディングは、言語クエリに関連する時間間隔(またはモーメント)を特定することを目的としている。
我々はこの問題をアルゴリズム的なグラフマッチング問題に再キャストする。
広範に使用されている3つのデータセットに対して,最先端の接地手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-19T22:32:03Z) - Understanding Dynamic Scenes using Graph Convolution Networks [22.022759283770377]
本稿では,移動カメラが捉えた時間順のフレーム列から道路車両の挙動をモデル化する新しい枠組みを提案する。
微調整に頼らずに複数のデータセットへの学習のシームレスな移行を示す。
このような振る舞い予測手法は,様々なナビゲーションタスクにおいて即時関連性を見出す。
論文 参考訳(メタデータ) (2020-05-09T13:05:06Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。