論文の概要: Adaptive Anomaly Recovery for Telemanipulation: A Diffusion Model Approach to Vision-Based Tracking
- arxiv url: http://arxiv.org/abs/2503.09632v1
- Date: Tue, 11 Mar 2025 20:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:35.889838
- Title: Adaptive Anomaly Recovery for Telemanipulation: A Diffusion Model Approach to Vision-Based Tracking
- Title(参考訳): 遠隔マニピュレーションのための適応的異常回復:ビジョンベーストラッキングへの拡散モデルアプローチ
- Authors: Haoyang Wang, Haoran Guo, Lingfeng Tao, Zhengxiong Li,
- Abstract要約: 本稿ではDiffusion-Enhanced Telemanipulationフレームワークを紹介する。
Frame-Difference Detection (FDD) 技術を使って、ビデオストリーム内の異常を識別し、セグメント化する。
- 参考スコア(独自算出の注目度): 3.9594367082013546
- License:
- Abstract: Dexterous telemanipulation critically relies on the continuous and stable tracking of the human operator's commands to ensure robust operation. Vison-based tracking methods are widely used but have low stability due to anomalies such as occlusions, inadequate lighting, and loss of sight. Traditional filtering, regression, and interpolation methods are commonly used to compensate for explicit information such as angles and positions. These approaches are restricted to low-dimensional data and often result in information loss compared to the original high-dimensional image and video data. Recent advances in diffusion-based approaches, which can operate on high-dimensional data, have achieved remarkable success in video reconstruction and generation. However, these methods have not been fully explored in continuous control tasks in robotics. This work introduces the Diffusion-Enhanced Telemanipulation (DET) framework, which incorporates the Frame-Difference Detection (FDD) technique to identify and segment anomalies in video streams. These anomalous clips are replaced after reconstruction using diffusion models, ensuring robust telemanipulation performance under challenging visual conditions. We validated this approach in various anomaly scenarios and compared it with the baseline methods. Experiments show that DET achieves an average RMSE reduction of 17.2% compared to the cubic spline and 51.1% compared to FFT-based interpolation for different occlusion durations.
- Abstract(参考訳): 不安定な遠隔操作は、堅牢な操作を保証するために、人間の操作者のコマンドの連続的かつ安定した追跡に依存している。
バイソンベースの追跡法は広く用いられているが、閉塞、照明不足、視力喪失などの異常により安定性が低い。
従来のフィルタリング、回帰法、補間法は、角度や位置などの明示的な情報を補うために一般的に用いられる。
これらのアプローチは低次元データに限定されており、しばしば元の高次元画像やビデオデータと比較して情報損失をもたらす。
高次元データで操作できる拡散型アプローチの最近の進歩は、ビデオ再構成と生成において顕著な成功を収めている。
しかし、これらの手法はロボット工学における連続制御タスクにおいて完全には研究されていない。
本研究は,ビデオストリーム中の異常を識別・セグメント化するためのフレーム拡散検出(FDD)技術を組み込んだDET(Diffusion-Enhanced Telemanipulation)フレームワークを導入する。
これらの異常クリップは拡散モデルを用いて再構成後に交換され、困難な視覚条件下での堅牢な遠隔操作性能が保証される。
このアプローチを様々な異常シナリオで検証し,ベースライン手法と比較した。
実験により、DET は立方体スプラインと比較して平均 17.2% の RMSE 還元を達成し、FFT ベースの補間では 51.1% の減少を達成している。
関連論文リスト
- Exploring the Magnitude-Shape Plot Framework for Anomaly Detection in Crowded Video Scenes [3.6961981570832374]
本研究では,機能的データ分析フレームワークにおけるビデオ異常検出について検討し,Magnitude-Shape (MS) Plotの適用性に着目した。
オートエンコーダは、異常のないトレーニングデータから通常の行動パターンを学習し、再構成するために使用される。
MS-Plotは、統計的に原則化された、異常検出のための解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-12-29T05:58:50Z) - Dual Conditioned Motion Diffusion for Pose-Based Video Anomaly Detection [12.100563798908777]
コンピュータビジョン研究にはビデオ異常検出(VAD)が不可欠である。
既存のVADメソッドは、再構築ベースのフレームワークまたは予測ベースのフレームワークを使用する。
ポーズに基づくビデオ異常検出に対処し、Dual Conditioned Motion Diffusionと呼ばれる新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-23T01:31:39Z) - Diffusion State-Guided Projected Gradient for Inverse Problems [82.24625224110099]
逆問題に対する拡散状態ガイド型射影勾配(DiffStateGrad)を提案する。
DiffStateGrad は拡散過程の中間状態の低ランク近似である部分空間に測定勾配を投影する。
DiffStateGradは、測定手順のステップサイズとノイズの選択によって拡散モデルのロバスト性を向上させる。
論文 参考訳(メタデータ) (2024-10-04T14:26:54Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Unsupervised Video Anomaly Detection with Diffusion Models Conditioned
on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。
提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。
提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文 参考訳(メタデータ) (2023-07-04T07:36:48Z) - Low-Light Image Enhancement with Wavelet-based Diffusion Models [50.632343822790006]
拡散モデルは画像復元作業において有望な結果を得たが、時間を要する、過剰な計算資源消費、不安定な復元に悩まされている。
本稿では,DiffLLと呼ばれる高能率かつ高能率な拡散型低光画像強調手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T03:08:28Z) - Cross Modal Focal Loss for RGBD Face Anti-Spoofing [4.36572039512405]
本稿では,RGBと深度チャネルと新たな損失関数を用いたプレゼンテーション攻撃検出(PAD)のための新しいフレームワークを提案する。
新しいアーキテクチャは、2つのモダリティからの補完的な情報を使用し、オーバーフィットの影響を減らします。
論文 参考訳(メタデータ) (2021-03-01T12:22:44Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Self-trained Deep Ordinal Regression for End-to-End Video Anomaly
Detection [114.9714355807607]
ビデオ異常検出に自己学習深層順序回帰を適用することで,既存の手法の2つの重要な限界を克服できることを示す。
我々は,手動で正規/異常データをラベル付けすることなく,共同表現学習と異常スコアリングを可能にする,エンドツーエンドのトレーニング可能なビデオ異常検出手法を考案した。
論文 参考訳(メタデータ) (2020-03-15T08:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。