論文の概要: Motion-Compensated Latent Semantic Canvases for Visual Situational Awareness on Edge
- arxiv url: http://arxiv.org/abs/2601.00854v1
- Date: Mon, 29 Dec 2025 20:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.791456
- Title: Motion-Compensated Latent Semantic Canvases for Visual Situational Awareness on Edge
- Title(参考訳): エッジ上の視覚的状況認識のための動き補償型潜在意味キャンバス
- Authors: Igor Lodin, Sergii Filatov, Vira Filatova, Dmytro Filatov,
- Abstract要約: 本研究では,資源制約されたエッジデバイス上での視覚的状況認識のための動作補償潜在セマンティックキャンバスを提案する。
中心となる考え方は、ビデオストリームから安定化されたベースライン座標フレームで定義された2つの潜在キャンバスで永続的なセマンティックメタデータを維持することである。
プリレコードされた480pのクリップでは、プロトタイプはセグメント化コールを30倍削減し、フレーム単位の単純なセグメンテーションに比べて、エンドツーエンドの処理時間を20倍短縮する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Motion-Compensated Latent Semantic Canvases (MCLSC) for visual situational awareness on resource-constrained edge devices. The core idea is to maintain persistent semantic metadata in two latent canvases - a slowly accumulating static layer and a rapidly updating dynamic layer - defined in a baseline coordinate frame stabilized from the video stream. Expensive panoptic segmentation (Mask2Former) runs asynchronously and is motion-gated: inference is triggered only when motion indicates new information, while stabilization/motion compensation preserves a consistent coordinate system for latent semantic memory. On prerecorded 480p clips, our prototype reduces segmentation calls by >30x and lowers mean end-to-end processing time by >20x compared to naive per-frame segmentation, while maintaining coherent static/dynamic semantic overlays.
- Abstract(参考訳): 本研究では,資源制約されたエッジデバイス上での視覚的状況認識のための動作補償潜在セマンティックキャンバス (MCLSC) を提案する。
中心となる考え方は、ビデオストリームから安定化されたベースライン座標フレームで定義された2つの潜伏キャンバス – ゆっくりと蓄積される静的層と、急速に更新される動的層 – に永続的なセマンティックメタデータを維持することである。
Mask2Former(英語版)は、動作が新しい情報を示す場合にのみ推論がトリガーされ、安定化/動作補償は遅延セマンティックメモリのための一貫した座標系を保持する。
予め記録した480pのクリップでは,プロトタイプでは,コヒーレントな静的/動的セマンティックオーバーレイを維持しながら,セグメント化コールを30倍削減し,平均エンドツーエンド処理時間を20倍短縮する。
関連論文リスト
- Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-12-25T16:34:56Z) - 3D Scene Prompting for Scene-Consistent Camera-Controllable Video Generation [55.29423122177883]
3DScenePromptは任意の長さの入力から次のチャンクを生成するフレームワークである。
カメラの制御とシーンの一貫性の維持を可能にする。
我々のフレームワークは、シーンの一貫性、カメラ制御性、生成品質において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-10-16T17:55:25Z) - DiViD: Disentangled Video Diffusion for Static-Dynamic Factorization [2.0032531485183345]
静的・動的因数分解のための最初のエンドツーエンドビデオ拡散フレームワークであるDiViDを紹介する。
DiViDは、最初のフレームとフレームごとの動的トークンからグローバルな静的トークンを抽出し、モーションコードから静的コンテンツを明示的に削除する。
我々は、スワップベースの精度とクロスリーカシメトリクスを用いて、実世界のベンチマーク上でDiViDを評価する。
論文 参考訳(メタデータ) (2025-07-18T14:09:18Z) - Identity-Preserving Text-to-Video Generation Guided by Simple yet Effective Spatial-Temporal Decoupled Representations [131.33758144860988]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
現在のエンドツーエンドフレームワークは、重要な空間的・時間的トレードオフを被る。
本稿では,表現をレイアウトの空間的特徴と運動力学の時間的特徴に分解する,シンプルで効果的な空間時空間分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-07T06:54:44Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Motion-state Alignment for Video Semantic Segmentation [4.375012768093524]
ビデオセマンティックセグメンテーションのための動き状態アライメントフレームワークを提案する。
提案手法は,動的および静的なセマンティクスをターゲットとしてピックアップする。
CityscapesとCamVidデータセットの実験は、提案手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2023-04-18T08:34:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。