論文の概要: LAPX: Lightweight Hourglass Network with Global Context
- arxiv url: http://arxiv.org/abs/2512.16089v1
- Date: Thu, 18 Dec 2025 02:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.880964
- Title: LAPX: Lightweight Hourglass Network with Global Context
- Title(参考訳): LAPX:グローバルコンテキストを備えた軽量ホアグラスネットワーク
- Authors: Haopeng Zhao, Marsha Mariya Kappan, Mahdi Bamdad, Francisco Cruz,
- Abstract要約: SOTA(State-of-the-Art)の精度を持つ手法には、多くのパラメータが伴い、かなりの計算コストがかかる。
我々は,グローバルな文脈情報をキャプチャする自己注意型HourglassネットワークであるLAPXを提案する。
MPIIとCOCOという2つのベンチマークデータセットで2.3Mのパラメータしか持たず、競合する結果が得られ、リアルタイムのパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human pose estimation is a crucial task in computer vision. Methods that have SOTA (State-of-the-Art) accuracy, often involve a large number of parameters and incur substantial computational cost. Many lightweight variants have been proposed to reduce the model size and computational cost of them. However, several of these methods still contain components that are not well suited for efficient deployment on edge devices. Moreover, models that primarily emphasize inference speed on edge devices often suffer from limited accuracy due to their overly simplified designs. To address these limitations, we propose LAPX, an Hourglass network with self-attention that captures global contextual information, based on previous work, LAP. In addition to adopting the self-attention module, LAPX advances the stage design and refine the lightweight attention modules. It achieves competitive results on two benchmark datasets, MPII and COCO, with only 2.3M parameters, and demonstrates real-time performance, confirming its edge-device suitability.
- Abstract(参考訳): 人間のポーズ推定はコンピュータビジョンにおいて重要な課題である。
SOTA(State-of-the-Art)の精度を持つ手法では、多くのパラメータが伴い、かなりの計算コストがかかる。
モデルのサイズと計算コストを減らすために、多くの軽量な変種が提案されている。
しかし、これらの手法のいくつかは、エッジデバイスへの効率的なデプロイには適さないコンポーネントを含んでいる。
さらに、エッジデバイス上での推論速度を強調するモデルは、過度に単純化された設計のため、精度が制限されることが多い。
これらの制約に対処するために,従来の研究であるLAPに基づいて,グローバルな文脈情報をキャプチャする自己注意型HourglassネットワークであるLAPXを提案する。
セルフアテンションモジュールの採用に加えて、LAPXはステージ設計を進め、軽量アテンションモジュールを改良した。
MPIIとCOCOの2つのベンチマークデータセットで2.3Mのパラメータしか持たず、リアルタイムのパフォーマンスを実証し、エッジデバイスの適合性を確認する。
関連論文リスト
- Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。
資源制約されたプラットフォームにおける高い計算コスト制限。
我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T18:00:00Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - Clip4Retrofit: Enabling Real-Time Image Labeling on Edge Devices via Cross-Architecture CLIP Distillation [1.5181915291533354]
Clip4Retrofitは、エッジデバイス上でリアルタイムな画像ラベリングを可能にする効率的なモデル蒸留フレームワークである。
このフレームワークは、数千台の車両に改造された費用対効果の高いエッジデバイスであるRetrofitカメラに展開されている。
この作業は、最先端のビジョン言語モデルとリソース制約された環境への展開のギャップを埋める。
論文 参考訳(メタデータ) (2025-05-23T15:42:52Z) - Harnessing On-Device Large Language Model: Empirical Results and Implications for AI PC [8.837470787975308]
エッジデバイス上の大規模言語モデル(LLM)は、大きなプライバシー上のメリットを提供する。
これらのオンデバイスLSMは、モデル容量の削減と必要な圧縮技術のために本質的に性能上の制限に直面している。
デバイス上でのLCMを評価するために,モデル能力,開発効率,システム資源を包含する体系的方法論を導入する。
論文 参考訳(メタデータ) (2025-05-21T02:23:01Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。
MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - ADCPNet: Adaptive Disparity Candidates Prediction Network for Efficient
Real-Time Stereo Matching [8.046317778069325]
粗粒度法は大規模ネットワークモデルのメモリ制約と速度制限を大幅に緩和した。
以前の粗大な設計では、粗大な格差マップを段階的に洗練するために、一定のオフセットと3つ以上のステージを使用する。
本稿では、より正確な不一致候補が提供される限り、より少ない段階で、粗い一致誤差を効率よく修正できると主張している。
論文 参考訳(メタデータ) (2020-11-18T01:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。