論文の概要: Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception
- arxiv url: http://arxiv.org/abs/2603.13176v1
- Date: Fri, 13 Mar 2026 17:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.209123
- Title: Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception
- Title(参考訳): 重要なことを理解する:マルチモーダルストリーミングの知覚に対する関連性駆動型スケジューリング
- Authors: Dingcheng Huang, Xiaotong Zhang, Kamal Youcef-Toumi,
- Abstract要約: ヒューマンロボットコラボレーション(HRC)アプリケーションでは、複数の知覚モジュールが視覚、聴覚、文脈の手がかりを共同で抽出し、総合的なシーン理解を実現する。
複数の知覚モジュールをフレーム単位で実行する一方で、レイテンシが必然的に増加し、ストリーミングの認識シナリオにおけるシステムパフォーマンスが大幅に低下する。
シーンコンテキストに基づいて,従来のフレームからの出力を効率よく活用し,必要な知覚モジュールをリアルタイムに推定・スケジュールする,新しい軽量な知覚スケジューリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.699942508693133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In modern human-robot collaboration (HRC) applications, multiple perception modules jointly extract visual, auditory, and contextual cues to achieve comprehensive scene understanding, enabling the robot to provide appropriate assistance to human agents intelligently. While executing multiple perception modules on a frame-by-frame basis enhances perception quality in offline settings, it inevitably accumulates latency, leading to a substantial decline in system performance in streaming perception scenarios. Recent work in scene understanding, termed Relevance, has established a solid foundation for developing efficient methodologies in HRC. However, modern perception pipelines still face challenges related to information redundancy and suboptimal allocation of computational resources. Drawing inspiration from the Relevance concept and the information sparsity in HRC events, we propose a novel lightweight perception scheduling framework that efficiently leverages output from previous frames to estimate and schedule necessary perception modules in real-time based on scene context. The experimental results demonstrate that the proposed perception scheduling framework effectively reduces computational latency by up to 27.52% compared to conventional parallel perception pipelines, while also achieving a 72.73% improvement in MMPose activation recall. Additionally, the framework demonstrates high keyframe accuracy, achieving rates of up to 98%. The results validate the framework's capability to enhance real-time perception efficiency without significantly compromising accuracy. The framework shows potential as a scalable and systematic solution for multimodal streaming perception systems in HRC.
- Abstract(参考訳): 現代のヒューマンロボットコラボレーション(HRC)アプリケーションでは、複数の知覚モジュールが視覚的、聴覚的、文脈的な手がかりを共同で抽出し、総合的なシーン理解を実現し、ロボットが人間のエージェントに適切な支援を行えるようにしている。
フレーム単位で複数の認識モジュールを実行することで、オフライン設定での認識品質が向上する一方で、レイテンシが必然的に蓄積され、ストリーミングの認識シナリオにおけるシステムパフォーマンスが大幅に低下する。
シーン理解における最近の研究はRelevanceと呼ばれ、HRCにおける効率的な方法論開発のための確かな基盤を確立している。
しかし、現代の知覚パイプラインは、情報冗長性と計算資源の最適部分割り当てに関する課題に直面している。
本研究では,HRCイベントにおけるRelevanceの概念と情報空間性からインスピレーションを得て,従来のフレームからの出力を効率よく活用し,シーンコンテキストに基づいて,必要な知覚モジュールをリアルタイムに推定・スケジュールする,新しい軽量な知覚スケジューリングフレームワークを提案する。
実験の結果,提案手法は,従来の並列認識パイプラインと比較して,計算遅延を最大27.52%削減すると同時に,72.73%のMMPoseアクティベーションリコールを実現していることがわかった。
さらに、フレームワークは高いキーフレーム精度を示し、最大98%のレートを達成する。
その結果, 精度を著しく向上させることなく, リアルタイム認識効率を向上させるフレームワークの能力を検証することができた。
このフレームワークは、HRCにおけるマルチモーダルストリーミング認識システムのためのスケーラブルで体系的なソリューションとしての可能性を示している。
関連論文リスト
- Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Causal-Aware Intelligent QoE Optimization for VR Interaction with Adaptive Keyframe Extraction [6.2819120598047]
本稿では,VRゲームにおけるクオリティ・オブ・エクスペリエンス(QoE)を最大化するインテリジェントなフレームワークを提案する。
適応抽出と因果認識強化学習(RL)の統合
実験の結果、我々のフレームワークは対話的なレイテンシを著しく低減し、QoEを強化し、公平性を維持することがわかった。
論文 参考訳(メタデータ) (2025-06-24T07:32:34Z) - Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。
本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-14T14:48:11Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Integration of Communication and Computational Imaging [49.2442836992307]
遠隔認識のためのコミュニケーション・計算画像(ICCI)を統合した新しいフレームワークを提案する。
ICCIフレームワークは、情報ソースの生成から最終ビジョンタスクの実行までの情報損失を最小限に抑えるために、全リンク情報転送最適化を行う。
80km27バンドのハイパースペクトル映像の知覚速度は30fpsである。
論文 参考訳(メタデータ) (2024-10-25T09:19:59Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - Chanakya: Learning Runtime Decisions for Adaptive Real-Time Perception [4.201396612455545]
Chanakyaは、トレードオフによって引き起こされる決定を自動的に学習する、学習された近似実行フレームワークである。
どちらの目標も近似することなく、精度とレイテンシを暗黙的にバランスさせる。
パブリックデータセット上での最先端の静的および動的実行ポリシよりも優れています。
論文 参考訳(メタデータ) (2021-06-10T11:28:10Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。