論文の概要: Memory-Guided Semantic Learning Network for Temporal Sentence Grounding
- arxiv url: http://arxiv.org/abs/2201.00454v1
- Date: Mon, 3 Jan 2022 02:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:25:21.348893
- Title: Memory-Guided Semantic Learning Network for Temporal Sentence Grounding
- Title(参考訳): 時間文接地のための記憶誘導セマンティック学習ネットワーク
- Authors: Daizong Liu, Xiaoye Qu, Xing Di, Yu Cheng, Zichuan Xu, Pan Zhou
- Abstract要約: 本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
- 参考スコア(独自算出の注目度): 55.31041933103645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal sentence grounding (TSG) is crucial and fundamental for video
understanding. Although the existing methods train well-designed deep networks
with a large amount of data, we find that they can easily forget the rarely
appeared cases in the training stage due to the off-balance data distribution,
which influences the model generalization and leads to undesirable performance.
To tackle this issue, we propose a memory-augmented network, called
Memory-Guided Semantic Learning Network (MGSL-Net), that learns and memorizes
the rarely appeared content in TSG tasks. Specifically, MGSL-Net consists of
three main parts: a cross-modal inter-action module, a memory augmentation
module, and a heterogeneous attention module. We first align the given
video-query pair by a cross-modal graph convolutional network, and then utilize
a memory module to record the cross-modal shared semantic features in the
domain-specific persistent memory. During training, the memory slots are
dynamically associated with both common and rare cases, alleviating the
forgetting issue. In testing, the rare cases can thus be enhanced by retrieving
the stored memories, resulting in better generalization. At last, the
heterogeneous attention module is utilized to integrate the enhanced
multi-modal features in both video and query domains. Experimental results on
three benchmarks show the superiority of our method on both effectiveness and
efficiency, which substantially improves the accuracy not only on the entire
dataset but also on rare cases.
- Abstract(参考訳): tsg(temporal sentence grounding)はビデオ理解において重要かつ基本的である。
既存の手法では十分な設計の深層ネットワークを多量のデータでトレーニングするが,オフバランスデータ分布がモデルの一般化に影響を与え,望ましくない性能をもたらすため,トレーニング段階にほとんど出現しないケースは容易に忘れられることがわかった。
この問題に対処するために,記憶誘導セマンティックラーニングネットワーク (MGSL-Net) という,TSGタスクで稀に現れるコンテンツを学習し記憶するメモリ拡張ネットワークを提案する。
具体的には、MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分から構成される。
まず、与えられたビデオクエリ対をクロスモーダルグラフ畳み込みネットワークで整列し、次にメモリモジュールを使用してドメイン固有の永続メモリに、クロスモーダル共有セマンティック特徴を記録する。
トレーニング中、メモリスロットは一般的なケースと稀なケースの両方に動的に関連付けられ、忘れる問題を緩和する。
テストでは、記憶された記憶を取り出すことにより、稀なケースが強化され、より一般化される。
最後に、ビデオドメインとクエリドメインの両方に拡張されたマルチモーダル機能を統合するために、異種注意モジュールを利用する。
3つのベンチマークによる実験結果から,提案手法は有効性と効率の両方において優れており,データセット全体だけでなく,稀なケースにおいても精度が大幅に向上した。
関連論文リスト
- Benchmarking Hebbian learning rules for associative memory [0.0]
連想記憶は認知と計算の脳科学における重要な概念である。
ストレージ容量とプロトタイプ抽出に関する6つの異なる学習ルールをベンチマークする。
論文 参考訳(メタデータ) (2023-12-30T21:49:47Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - Universal Hopfield Networks: A General Framework for Single-Shot
Associative Memory Models [41.58529335439799]
本稿では,メモリネットワークの動作を3つの操作のシーケンスとして理解するための一般的なフレームワークを提案する。
これらのメモリモデルはすべて、類似性と分離関数が異なる一般的なフレームワークのインスタンスとして導出します。
論文 参考訳(メタデータ) (2022-02-09T16:48:06Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - Memorizing Comprehensively to Learn Adaptively: Unsupervised
Cross-Domain Person Re-ID with Multi-level Memory [89.43986007948772]
対象領域における多レベル補完情報を発見するための新しいマルチレベルメモリネットワーク(MMN)を提案する。
従来の単純なメモリとは違って、ターゲット領域内の複数レベル補完情報を検出するための新しいマルチレベルメモリネットワーク(MMN)を提案する。
論文 参考訳(メタデータ) (2020-01-13T09:48:03Z) - Learning and Memorizing Representative Prototypes for 3D Point Cloud
Semantic and Instance Segmentation [117.29799759864127]
3Dポイントクラウドセマンティクスとインスタンスセグメンテーションは、3Dシーン理解にとって不可欠で基本である。
深層ネットワークは、学習過程における非支配的なケースを忘れやすく、不満足なパフォーマンスをもたらす。
本稿では,多様なサンプルを普遍的にカバーする代表プロトタイプを学習し,記憶するメモリ拡張ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-06T01:07:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。