論文の概要: LiPS: Lightweight Panoptic Segmentation for Resource-Constrained Robotics
- arxiv url: http://arxiv.org/abs/2604.00634v1
- Date: Wed, 01 Apr 2026 08:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.909762
- Title: LiPS: Lightweight Panoptic Segmentation for Resource-Constrained Robotics
- Title(参考訳): LiPS:資源制約ロボットのための軽量パノプティクスセグメンテーション
- Authors: Calvin Galagain, Martyna Poreba, François Goulette, Cyrill Stachniss,
- Abstract要約: LiPSは、計算要求を大幅に減らしながら、強力な単視セグメンテーション性能を提供することを目的としている。
LiPSは、非常に重いベースラインに匹敵する精度を実現し、毎秒4.5倍のスループットを提供する。
この効率性により、LiPSは現代の汎光学モデルと現実世界のロボットアプリケーションの間に非常に関連性の高い橋渡しとなる。
- 参考スコア(独自算出の注目度): 18.30880703436021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic segmentation is a key enabler for robotic perception, as it unifies semantic understanding with object-level reasoning. However, the increasing complexity of state-of-the-art models makes them unsuitable for deployment on resource-constrained platforms such as mobile robots. We propose a novel approach called LiPS that addresses the challenge of efficient-to-compute panoptic segmentation with a lightweight design that retains query-based decoding while introducing a streamlined feature extraction and fusion pathway. It aims at providing a strong panoptic segmentation performance while substantially lowering the computational demands. Evaluations on standard benchmarks demonstrate that LiPS attains accuracy comparable to much heavier baselines, while providing up to 4.5 higher throughput, measured in frames per second, and requiring nearly 6.8 times fewer computations. This efficiency makes LiPS a highly relevant bridge between modern panoptic models and real-world robotic applications.
- Abstract(参考訳): パノプティックセグメンテーション(英: Panoptic segmentation)は、オブジェクトレベルの推論とセマンティック理解を統合することで、ロボット知覚の鍵となるイネーブルである。
しかし、最先端モデルの複雑さが増すにつれ、モバイルロボットのようなリソース制約のあるプラットフォームへの展開には適さない。
本稿では,並列処理を効率よく行うことの難しさに対処し,クエリベースのデコーディングを維持しつつ,特徴抽出と融合経路を合理化しながら,軽量な設計で解決するLiPSという新しい手法を提案する。
計算要求を大幅に減らしながら、強力な単視セグメンテーション性能を提供することを目標としている。
標準ベンチマークの評価によると、LiPSはより重いベースラインに匹敵する精度を達成し、最大4.5以上のスループットを提供し、1秒あたりのフレームで測定し、計算の6.8倍の計算を必要とする。
この効率性により、LiPSは現代の汎光学モデルと現実世界のロボットアプリケーションの間に非常に関連性の高い橋渡しとなる。
関連論文リスト
- Improving LLM Reasoning via Dependency-Aware Query Decomposition and Logic-Parallel Content Expansion [29.45427036598799]
AIによる検索や会話エージェントなどのリアルタイムWebアプリケーションへのLarge Language Modelsの統合は、Webインフラストラクチャの基本的な課題である。
そこで我々は,依存性を意識したクエリの分解と論理並列コンテンツの拡張を可能にする,新規で効率的な推論フレームワークOrionを提案する。
多様なベンチマークの実験によると、Orionはトークン生成速度を最大4.33倍、応答遅延を3.42倍まで削減するだけでなく、推論品質を最大18.75%向上させる。
論文 参考訳(メタデータ) (2025-10-28T13:05:23Z) - ResidualViT for Efficient Temporally Dense Video Encoding [66.57779133786131]
我々は,時間的に密集したタスクに対する計算機能のコスト削減に3つの貢献をしている。
まず、ビデオの時間的冗長性を活用するビジョントランスフォーマー(ViT)アーキテクチャ、ResidualViTを紹介する。
第2に,原基礎モデルのフレームレベルの特徴を近似する軽量蒸留方式を提案する。
論文 参考訳(メタデータ) (2025-09-16T17:12:23Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - Back to Fundamentals: Low-Level Visual Features Guided Progressive Token Pruning [8.284127681482202]
LVTPは、マルチスケールのTsallisエントロピーと2倍のクラスタリングを備えた低レベル視覚特徴によってガイドされるプログレッシブトークンプルーニングフレームワークである。
高レベルのセマンティクスと、正確なセグメンテーションのための基本的な視覚属性を統合している。
プラグアンドプレイモジュールとして、アーキテクチャの変更や追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2025-04-25T00:43:20Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。
本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文 参考訳(メタデータ) (2024-07-17T18:38:48Z) - Multi-scale Interaction for Real-time LiDAR Data Segmentation on an
Embedded Platform [62.91011959772665]
LiDARデータのリアルタイムセマンティックセグメンテーションは、自動運転車にとって不可欠である。
ポイントクラウド上で直接動作する現在のアプローチでは、複雑な空間集約操作を使用する。
本稿では,マルチスケールインタラクションネットワーク(MINet)と呼ばれるプロジェクションベースの手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T19:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。