論文の概要: HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics
- arxiv url: http://arxiv.org/abs/2408.17443v3
- Date: Sat, 09 Nov 2024 06:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:30.351351
- Title: HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics
- Title(参考訳): HERMES:エピソードとセマンティックスによる時間的コヒーレントな長期的理解
- Authors: Gueter Josmy Faure, Jia-Fong Yeh, Min-Hung Chen, Hung-Ting Su, Shang-Hong Lai, Winston H. Hsu,
- Abstract要約: HERMESは、エピソードメモリ蓄積をシミュレートしてアクションシーケンスをキャプチャするモデルである。
エピソード・コムプレッサーは、ミクロからセミマクロレベルまでの重要な表現を効率的に集約する。
Semantic ReTRieverは、関連するマクロレベルの情報を保持しながら、特徴次元を劇的に削減する。
- 参考スコア(独自算出の注目度): 32.117677036812836
- License:
- Abstract: Existing research often treats long-form videos as extended short videos, leading to several limitations: inadequate capture of long-range dependencies, inefficient processing of redundant information, and failure to extract high-level semantic concepts. To address these issues, we propose a novel approach that more accurately reflects human cognition. This paper introduces HERMES: temporal-coHERent long-forM understanding with Episodes and Semantics, a model that simulates episodic memory accumulation to capture action sequences and reinforces them with semantic knowledge dispersed throughout the video. Our work makes two key contributions: First, we develop an Episodic COmpressor (ECO) that efficiently aggregates crucial representations from micro to semi-macro levels, overcoming the challenge of long-range dependencies. Second, we propose a Semantics ReTRiever (SeTR) that enhances these aggregated representations with semantic information by focusing on the broader context, dramatically reducing feature dimensionality while preserving relevant macro-level information. This addresses the issues of redundancy and lack of high-level concept extraction. Extensive experiments demonstrate that HERMES achieves state-of-the-art performance across multiple long-video understanding benchmarks in both zero-shot and fully-supervised settings.
- Abstract(参考訳): 既存の研究は、長大なビデオを長大な短いビデオとして扱うことが多く、長大な依存関係の捕捉の不十分、冗長な情報の非効率な処理、高レベルなセマンティックな概念の抽出の失敗など、いくつかの制限が生じる。
これらの課題に対処するために,人間の認知をより正確に反映する新しいアプローチを提案する。
本稿では, エピソードとセマンティックスを用いた時間的コヒーレントなロングフォーM理解(HERMES)について紹介する。
まず、マイクロレベルからセミマクロレベルの重要な表現を効率的に集約するエピソディック・コムプレッサー(ECO)を開発し、長距離依存関係の課題を克服する。
次に,セマンティックス・レトニバー (SeTR) を提案する。セマンティックス・レトニバー (SeTR) は,セマンティックス・レトニバー(SeTR) とセマンティックス・レトニバー・セマンティックス・レトニバー (SeTR) を,関連するマクロレベルの情報を保存しながら,より広い文脈に焦点をあてることで,これらの集合表現をセマンティックス・インフォメーション・インフォメーションで強化する。
これは冗長性と高レベルの概念抽出の欠如の問題に対処する。
広汎な実験により、HERMESはゼロショットとフル教師付き設定の両方において、複数の長時間ビデオ理解ベンチマークで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - SpikeMba: Multi-Modal Spiking Saliency Mamba for Temporal Video Grounding [50.337896542603524]
時間的ビデオグラウンドティングのためのマルチモーダル・スパイク・サリエンシ・マンバであるSpikeMbaを紹介した。
我々のアプローチでは、スパイキングニューラルネットワーク(SNN)と状態空間モデル(SSM)を統合して、そのユニークな利点を活用する。
我々の実験は、最先端の手法を一貫して上回るSpikeMbaの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-01T15:26:44Z) - Temporal Insight Enhancement: Mitigating Temporal Hallucination in
Multimodal Large Language Models [20.33971942003996]
本研究では,MLLMにおける事象レベルの幻覚に対処する革新的な手法を提案する。
オンデマンドイベントクエリをアイコンアクションに分解するユニークなメカニズムを提案する。
イベント発生の特定のタイムスタンプを予測するために、CLIPやBLIP2といったモデルを採用しています。
論文 参考訳(メタデータ) (2024-01-18T10:18:48Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - Hierarchical Deep Residual Reasoning for Temporal Moment Localization [48.108468456043994]
ビデオと文を異なる意味を持つマルチレベル表現に分解する階層的深層残響推論(HDRR)モデルを提案する。
また,機能融合のための簡易かつ効果的なRes-BiGRUを設計し,自己適応的に有用な情報を把握できる。
論文 参考訳(メタデータ) (2021-10-31T07:13:34Z) - Interpretable Time-series Representation Learning With Multi-Level
Disentanglement [56.38489708031278]
Disentangle Time Series (DTS)は、シーケンシャルデータのための新しいDisentanglement Enhanceingフレームワークである。
DTSは時系列の解釈可能な表現として階層的意味概念を生成する。
DTSは、セマンティック概念の解釈性が高く、下流アプリケーションで優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-17T22:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。