論文の概要: Accelerating Physical Property Reasoning for Augmented Visual Cognition
- arxiv url: http://arxiv.org/abs/2511.03126v1
- Date: Wed, 05 Nov 2025 02:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.299733
- Title: Accelerating Physical Property Reasoning for Augmented Visual Cognition
- Title(参考訳): 視力増強のための物理特性推論の高速化
- Authors: Hongbo Lan, Zhenlin An, Haoyu Li, Vaibhav Singh, Longfei Shangguan,
- Abstract要約: sysnameは視覚誘導された物理的特性推論を加速し、視覚認知を増強するシステムである。
sysnameは、この推論パイプラインのエンドツーエンドのレイテンシを10~20分から6秒未満に短縮する。
さらに、視線追跡とサイス名を組み合わせて、散らばった現実世界の環境に対する関心の対象をローカライズする。
- 参考スコア(独自算出の注目度): 22.94087457300336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces \sysname, a system that accelerates vision-guided physical property reasoning to enable augmented visual cognition. \sysname minimizes the run-time latency of this reasoning pipeline through a combination of both algorithmic and systematic optimizations, including rapid geometric 3D reconstruction, efficient semantic feature fusion, and parallel view encoding. Through these simple yet effective optimizations, \sysname reduces the end-to-end latency of this reasoning pipeline from 10--20 minutes to less than 6 seconds. A head-to-head comparison on the ABO dataset shows that \sysname achieves this 62.9$\times$--287.2$\times$ speedup while not only reaching on-par (and sometimes slightly better) object-level physical property estimation accuracy(e.g. mass), but also demonstrating superior performance in material segmentation and voxel-level inference than two SOTA baselines. We further combine gaze-tracking with \sysname to localize the object of interest in cluttered, real-world environments, streamlining the physical property reasoning on smart glasses. The case study with Meta Aria Glasses conducted at an IKEA furniture store demonstrates that \sysname achives consistently high performance compared to controlled captures, providing robust property estimations even with fewer views in real-world scenarios.
- Abstract(参考訳): 本稿では,視覚的認知機能を実現するために,視覚誘導型物理特性推論を高速化するシステムである‘sysname’を紹介する。
高速な幾何学的3D再構成、効率的なセマンティックな特徴融合、並列ビューエンコーディングといったアルゴリズムと体系的な最適化を組み合わせることで、この推論パイプラインのランタイムレイテンシを最小化する。
これらの単純で効果的な最適化を通じて、‘sysname’は、この推論パイプラインのエンドツーエンドのレイテンシを10~20分から6秒未満に短縮する。
ABOデータセットのヘッド・ツー・ヘッド比較では、asysnameはこの62.9$\times$--287.2$\times$ Speedupを達成したが、これはオブジェクトレベルの物理的特性推定精度(e g mass)に到達しただけでなく、2つのSOTAベースラインよりも材料セグメンテーションとボクセルレベルの推論において優れた性能を示した。
さらに、視線追跡を‘sysname’と組み合わせて、散らばった現実世界の環境への関心をローカライズし、スマートグラスの物理的特性推論を合理化する。
IKEAの家具店で実施したMeta Aria Glassesを用いたケーススタディでは,シズナ・アキブは制御されたキャプチャに比べて常に高い性能を示し,現実のシナリオでは少ない視点でも頑健な特性推定が可能であった。
関連論文リスト
- Towards Low-Latency Event Stream-based Visual Object Tracking: A Slow-Fast Approach [32.91982063297922]
我々は,SFTrackと呼ばれる,異なる運用要件に柔軟に対応する新しいスローファストトラッキングパラダイムを提案する。
提案するフレームワークは2つの補完モード,すなわち,十分な計算資源を持つシナリオを対象とした高精度なスロートラッカと,レイテンシを意識したリソース制約のある環境に適した効率的な高速トラッカをサポートする。
このフレームワークは,まず高時間分解能イベントストリームからグラフベースの表現学習を行い,学習したグラフ構造化情報を2つのFlashAttentionベースのビジョンバックボーンに統合する。
論文 参考訳(メタデータ) (2025-05-19T09:37:23Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - VICON: Vision In-Context Operator Networks for Multi-Physics Fluid Dynamics Prediction [30.201826592090885]
In-Context Operator Networks (ICONs) は、少数ショットのインコンテキスト学習を用いて様々な偏微分方程式の演算子を学習する。
既存のICONは各空間点を個々のトークンとして処理し、高次元の高密度データを処理する際に計算効率を著しく制限する。
本稿では,ビジョントランスフォーマーアーキテクチャを統合し,パッチワイズ操作による2次元データの効率的な処理を行うビジョン・イン・コンテキスト・オペレーター・ネットワーク(VICON)を提案する。
論文 参考訳(メタデータ) (2024-11-25T03:25:17Z) - AIR-HLoc: Adaptive Retrieved Images Selection for Efficient Visual Localisation [8.789742514363777]
最先端の階層的ローカライゼーションパイプライン(HLOC)は2D-3D対応を確立するために画像検索(IR)を使用している。
本稿では,グローバルディスクリプタとローカルディスクリプタの関係について検討する。
本稿では,クエリのグローバルな記述子とデータベース内の記述子との類似性に基づいて$k$を調整する適応型戦略を提案する。
論文 参考訳(メタデータ) (2024-03-27T06:17:21Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - DOT: Dynamic Object Tracking for Visual SLAM [83.69544718120167]
DOTはインスタンスセグメンテーションとマルチビュー幾何を組み合わせて、動的オブジェクトのマスクを生成する。
実際にどのオブジェクトが動いているかを判断するために、DOTは、潜在的にダイナミックなオブジェクトの最初のインスタンスを抽出し、次に推定されたカメラモーションで、測光再投射誤差を最小限にして、そのようなオブジェクトを追跡する。
提案手法はORB-SLAM 2の精度とロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-09-30T18:36:28Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。