論文の概要: Hybrid Visual Telemetry for Bandwidth-Constrained Robotic Vision: A Pilot Study with HEVC Base Video and JPEG ROI Stills
- arxiv url: http://arxiv.org/abs/2605.01826v1
- Date: Sun, 03 May 2026 11:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.952666
- Title: Hybrid Visual Telemetry for Bandwidth-Constrained Robotic Vision: A Pilot Study with HEVC Base Video and JPEG ROI Stills
- Title(参考訳): 帯域制限型ロボットビジョンのためのハイブリッドビジュアルテレメトリ:HEVCベースビデオとJPEGROIスチールを用いたパイロット研究
- Authors: Natalia Trukhina, Vadim Vashkelis,
- Abstract要約: 帯域幅に制約のあるロボットと監視システムは、シーンの認識とマシンの認識の両方をサポートするために、単一の圧縮ビデオストリームに依存していることが多い。
低解像度ビデオが動的シーン理解をサポートするハイブリッドアーキテクチャによって動機付けられる。
本稿では,連続的な低ビットレートビデオストリームを選択的に伝送された静止ROIによって拡張する2チャンネルのビジュアルテレメトリ方式を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bandwidth-constrained robotic and surveillance systems often rely on a single compressed video stream to support both continuous scene awareness and downstream machine perception. In practice, this creates a mismatch: low-bitrate video can preserve motion and coarse context, but often loses the fine local detail needed for reliable object recognition and decision-making. Motivated by a hybrid architecture in which low-resolution video supports dynamic scene understanding while eventdriven high-detail regions of interest (ROIs) support close-up identification and analytics, this paper formalizes a two-channel visual telemetry scheme in which a continuous low-bitrate video stream is augmented by selectively transmitted high-detail still ROIs. This first paper does not attempt to prove the superiority of a new still-image codec. Instead, it establishes the hybrid transmission paradigm itself using a practical and reproducible codec stack: x265/HEVC for the base video stream and JPEG stills for ROI refinement. We formulate the problem as bitrate-constrained information selection for robotic vision and define an experimental protocol in which video-only and hybrid schemes are compared under matched total communication budgets. The study is designed around UAV-oriented datasets, two practical bitrate regimes, several ROI triggering policies, and object-level classification refinement on selectively transmitted ROI stills. The resulting paper lays the methodological foundation for a second-stage investigation of JPEG AI as the semantic still-image channel within the same hybrid architecture.
- Abstract(参考訳): 帯域制限のロボットと監視システムは、連続的なシーン認識と下流マシン認識の両方をサポートするために、単一の圧縮ビデオストリームに依存していることが多い。
低ビットレートビデオは動きと粗いコンテキストを保存できるが、信頼できるオブジェクト認識と意思決定に必要な詳細な局所的詳細は失われることが多い。
イベント駆動型高精細領域(ROI)がクローズアップ識別と分析をサポートする一方で、低精細ビデオが動的シーン理解をサポートするハイブリッドアーキテクチャにより、連続的な低精細ビデオストリームを選択的に送信された高精細ビデオROIによって拡張する2チャンネル視覚テレメトリスキームを定式化した。
この最初の論文は、新しい静止画像コーデックの優位性を証明しようとはしない。
代わりに、ベースビデオストリーム用のx265/HEVCとROI改善のためのJPEGスチールという実用的で再現可能なコーデックスタックを使用して、ハイブリッドトランスミッションパラダイム自体を確立する。
ロボットビジョンのためのビットレート制約情報選択として問題を定式化し、ビデオのみとハイブリッドのスキームをマッチングされた全通信予算で比較する実験プロトコルを定義する。
この研究は、UAV指向のデータセット、2つの実用的なビットレート機構、複数のROIトリガーポリシー、および選択的に送信されたROIスチールにおけるオブジェクトレベルの分類改善を中心に設計されている。
提案論文は,JPEG AIをハイブリッドアーキテクチャにおける意味的静止画像チャネルとして,第2段階の研究の方法論的基礎を定めている。
関連論文リスト
- MSNeRV: Neural Video Representation with Multi-Scale Feature Fusion [27.621656985302973]
Inlicit Neural representations (INRs) はビデオ圧縮の有望なアプローチとして登場した。
既存のINRベースの手法は、ディテール集約的で高速に変化するビデオコンテンツを効果的に表現するのに苦労する。
ニューラルビデオ表現のためのマルチスケール機能融合フレームワークMSNeRVを提案する。
論文 参考訳(メタデータ) (2025-06-18T08:57:12Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - HSTR-Net: Reference Based Video Super-resolution with Dual Cameras [2.4749083496491675]
本稿では,参照ベーススーパーレゾリューション(RefSR)を用いたHSTRビデオ生成のためのデュアルカメラシステムを提案する。
1台のカメラは高解像度低フレームレート(HSLF)ビデオを撮影し、もう1台のカメラは同時に低解像度高フレームレート(LSHF)ビデオを撮影する。
HSLFおよびLSHFビデオフィードを融合し,HSTRビデオフレームを合成するために,新しいディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-10-18T16:37:01Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。