Fugu-MT 論文翻訳(概要): MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD

論文の概要: MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD

arxiv url: http://arxiv.org/abs/2406.07191v1
Date: Tue, 11 Jun 2024 12:03:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 16:13:39.185403
Title: MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD
Title（参考訳）: MeMSVD:インクリメンタルSVDを用いた長期時間構造キャプチャ
Authors: Ioanna Ntinou, Enrique Sanchez, Georgios Tzimiropoulos,
Abstract要約: 本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
参考スコア（独自算出の注目度）: 27.472705540825316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper is on long-term video understanding where the goal is to recognise human actions over long temporal windows (up to minutes long). In prior work, long temporal context is captured by constructing a long-term memory bank consisting of past and future video features which are then integrated into standard (short-term) video recognition backbones through the use of attention mechanisms. Two well-known problems related to this approach are the quadratic complexity of the attention operation and the fact that the whole feature bank must be stored in memory for inference. To address both issues, we propose an alternative to attention-based schemes which is based on a low-rank approximation of the memory obtained using Singular Value Decomposition. Our scheme has two advantages: (a) it reduces complexity by more than an order of magnitude, and (b) it is amenable to an efficient implementation for the calculation of the memory bases in an incremental fashion which does not require the storage of the whole feature bank in memory. The proposed scheme matches or surpasses the accuracy achieved by attention-based mechanisms while being memory-efficient. Through extensive experiments, we demonstrate that our framework generalises to different architectures and tasks, outperforming the state-of-the-art in three datasets.
Abstract（参考訳）: 本稿では,長時間の時間的ウィンドウ上での人間行動の認識(最大数分)を目標とする,長期的ビデオ理解について述べる。従来の作業では、アテンション機構を用いて、標準(短期)ビデオ認識バックボーンに統合された過去と将来のビデオ特徴からなる長期記憶バンクを構築することにより、長期記憶コンテキストをキャプチャする。このアプローチに関連する2つのよく知られた問題は、注意操作の二次的な複雑さと、機能バンク全体が推論のためにメモリに格納されなければならないという事実である。両問題に対処するために,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。私たちの計画には2つの利点がある。 a) 1桁以上の複雑さを減らし b) メモリ内の機能バンク全体を記憶する必要のないインクリメンタルな方法でメモリベースを計算するための効率的な実装が可能である。提案手法は、メモリ効率を保ちながら、注意に基づくメカニズムによって達成される精度を一致または超過する。大規模な実験を通じて、我々のフレームワークは異なるアーキテクチャやタスクに一般化し、3つのデータセットで最先端のパフォーマンスを誇示する。

関連論文リスト

mGRADE: Minimal Recurrent Gating Meets Delay Convolutions for Lightweight Sequence Modeling [0.5236468296934584]
mGRADEは、時間的1D-畳み込みと学習可能な間隔を統合したハイブリッドメモリシステムである。我々は,mGRADEがマルチスケールの時間的特徴を効果的に分離し,保存することを示した。これは、エッジにおけるメモリ制約付きマルチスケールの時間処理の効率的なソリューションとしてのmGRADEの約束を強調している。
論文参考訳（メタデータ） (2025-07-02T15:44:35Z)
Long-Sequence Memory with Temporal Kernels and Dense Hopfield Functionals [0.0]
長い系列ホップフィールドメモリモデルに関する初期の研究に基づいて、時間的依存関係を組み込むために時間的カーナル$K(m, k)$を提案する。本手法が映画フレームの保存とシーケンシャル検索に有効であることを示す。
論文参考訳（メタデータ） (2025-06-27T15:57:58Z)
FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文参考訳（メタデータ） (2025-06-18T17:06:28Z)
Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions [104.90258030688256]
本研究は,ストリーミング映像とオーディオ入力とのリアルタイムインタラクションを実現するために,非絡み合いのストリーミング知覚,推論,メモリ機構を導入している。このプロジェクトは人間のような認知をシミュレートし、多モーダルな大規模言語モデルが時間とともに継続的かつ適応的なサービスを提供できるようにする。
論文参考訳（メタデータ） (2024-12-12T18:58:30Z)
Cottention: Linear Transformers With Cosine Attention [2.762180345826837]
ソフトマックス操作をコサイン類似性に置き換える新しい注意機構であるCottentionを導入する。 Cottentionは、配列長に関してネイティブな線形メモリ複雑性を実現し、ソフトマックスの注意よりも本質的にメモリ効率が良い。
論文参考訳（メタデータ） (2024-09-27T13:38:36Z)
TF-SASM: Training-free Spatial-aware Sparse Memory for Multi-object Tracking [6.91631684487121]
コンピュータビジョンにおけるマルチオブジェクト追跡(MOT)は依然として重要な課題であり、ビデオシーケンス内の複数のオブジェクトの正確な位置決めと連続的な追跡が必要である。本稿では,オブジェクトの動きと重なり合う認識に基づいて,重要な特徴を選択的に記憶するメモリベースの新しいアプローチを提案する。提案手法はDanceTrackテストセットのMOTRv2よりも有意に改善し,AsAスコアが2.0%,IFF1スコアが2.1%向上した。
論文参考訳（メタデータ） (2024-07-05T07:55:19Z)
MAMBA: Multi-level Aggregation via Memory Bank for Video Object Detection [35.16197118579414]
我々は,MAMBAと呼ばれるメモリバンクを用いたマルチレベル集約アーキテクチャを提案する。具体的には,既存の手法の欠点を解消するために,メモリバンクが2つの新しい操作を施している。従来の最先端手法と比較して,提案手法は速度と精度の両面で優れた性能を発揮する。
論文参考訳（メタデータ） (2024-01-18T12:13:06Z)
Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文参考訳（メタデータ） (2023-06-21T22:41:58Z)
Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。 MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文参考訳（メタデータ） (2022-01-03T02:32:06Z)
Efficient Global-Local Memory for Real-time Instrument Segmentation of Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文参考訳（メタデータ） (2021-09-28T10:10:14Z)
Temporal Memory Relation Network for Workflow Recognition from Surgical Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文参考訳（メタデータ） (2021-03-30T13:20:26Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)
Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文参考訳（メタデータ） (2020-05-18T11:29:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。