論文の概要: MTGA: Multi-view Temporal Granularity aligned Aggregation for Event-based Lip-reading
- arxiv url: http://arxiv.org/abs/2404.11979v1
- Date: Thu, 18 Apr 2024 08:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:01:02.020608
- Title: MTGA: Multi-view Temporal Granularity aligned Aggregation for Event-based Lip-reading
- Title(参考訳): MTGA:イベントベースのリップ読み取りのための多視点時間粒度アグリゲーション
- Authors: Wenhao Zhang, Jun Wang, Yong Luo, Lei Yu, Wei Yu, Zheng He,
- Abstract要約: 唇読みは、話者の唇の動きの視覚情報を利用して、単語や文を認識することである。
MTGA(Multi-view Temporality-aligned Aggregation)と呼ばれる新しいフレームワークを提案する。
本手法は, イベントベース, ビデオベースの唇読解法の両方に優れる。
- 参考スコア(独自算出の注目度): 21.58196247008208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lip-reading is to utilize the visual information of the speaker's lip movements to recognize words and sentences. Existing event-based lip-reading solutions integrate different frame rate branches to learn spatio-temporal features of varying granularities. However, aggregating events into event frames inevitably leads to the loss of fine-grained temporal information within frames. To remedy this drawback, we propose a novel framework termed Multi-view Temporal Granularity aligned Aggregation (MTGA). Specifically, we first present a novel event representation method, namely time-segmented voxel graph list, where the most significant local voxels are temporally connected into a graph list. Then we design a spatio-temporal fusion module based on temporal granularity alignment, where the global spatial features extracted from event frames, together with the local relative spatial and temporal features contained in voxel graph list are effectively aligned and integrated. Finally, we design a temporal aggregation module that incorporates positional encoding, which enables the capture of local absolute spatial and global temporal information. Experiments demonstrate that our method outperforms both the event-based and video-based lip-reading counterparts. Our code will be publicly available.
- Abstract(参考訳): 唇読みは、話者の唇の動きの視覚情報を利用して、単語や文を認識することである。
既存のイベントベースのリップ読み取りソリューションは、異なるフレームレートブランチを統合して、様々な粒度の時空間的特徴を学習する。
しかし、イベントをイベントフレームに集約すると、必然的にフレーム内の微細な時間情報が失われる。
この欠点を解消するために,MTGA(Multi-view Temporal Granularity aligned Aggregation)と呼ばれる新しいフレームワークを提案する。
具体的には、まず、時間分割されたボクセルグラフリストという新しいイベント表現法を提案し、そこでは、最も重要な局所ボクセルを時間的にグラフリストに接続する。
次に、時間的粒度アライメントに基づく時空間融合モジュールを設計し、イベントフレームから抽出した大域的空間的特徴と、ボクセルグラフリストに含まれる局所的空間的特徴と時間的特徴を効果的にアライメントし統合する。
最後に,位置符号化を組み込んだ時間アグリゲーションモジュールを設計し,局所的な絶対的空間的・大域的時間的情報の取得を可能にする。
実験により,本手法は,イベントベースおよびビデオベースの唇読解法よりも優れていることが示された。
私たちのコードは公開されます。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Part-aware Unified Representation of Language and Skeleton for Zero-shot Action Recognition [57.97930719585095]
本稿では,PURLS(Part-aware Unified Representation between Language and Skeleton)を紹介する。
本手法はスケルトン/言語のバックボーンと3つの大規模データセットを用いて評価する。
その結果、PURLSの普遍性と優れた性能を示し、以前のスケルトンベースのソリューションと他のドメインからの標準ベースラインを上回った。
論文 参考訳(メタデータ) (2024-06-19T08:22:32Z) - ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning
for Real-world Scene Flow [6.155589434533128]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。
提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T04:56:10Z) - Local Compressed Video Stream Learning for Generic Event Boundary
Detection [25.37983456118522]
イベント境界検出は、ビデオをチャンクに分割する一般的な分類なしのイベント境界をローカライズすることを目的としている。
既存の方法は、通常、ネットワークに入力する前にビデオフレームをデコードする必要がある。
本稿では,圧縮領域におけるリッチな情報を活用する完全エンドツーエンドのイベント境界検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-27T06:49:40Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Follow the Timeline! Generating Abstractive and Extractive Timeline
Summary in Chronological Order [78.46986998674181]
時間順で抽象的かつ抽出的な時系列を生成できる統一タイムライン要約器(UTS)を提案する。
我々は、以前の中国の大規模タイムライン要約データセットを拡張し、新しい英語タイムラインデータセットを収集する。
UTSは、自動評価と人的評価の両方の観点から最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-02T20:29:40Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - Multi-Scale Local-Temporal Similarity Fusion for Continuous Sign
Language Recognition [4.059599144668737]
連続手話認識(continuous sign language recognition)は、手話動画を順序付けられた光沢シーケンスに書き起こす公的な重要なタスクである。
1次元畳み込みネットワーク(1D-CNN)を採用して、シーケンシャルフレームを時間的に融合させることが期待できる方法である。
本稿では,このタスクの時間的類似性を通じて局所的特徴を適応的に融合することを提案する。
論文 参考訳(メタデータ) (2021-07-27T12:06:56Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。