Fugu-MT 論文翻訳(概要): To Perceive or Not to Perceive: Lightweight Stacked Hourglass Network

論文の概要: To Perceive or Not to Perceive: Lightweight Stacked Hourglass Network

arxiv url: http://arxiv.org/abs/2302.04815v1
Date: Thu, 9 Feb 2023 18:04:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 14:48:22.070231
Title: To Perceive or Not to Perceive: Lightweight Stacked Hourglass Network
Title（参考訳）: 知覚する、知覚しない:軽量に積み重ねられた砂時計網
Authors: Jameel Hassan Abdul Samadh, Salwa K. Al Khatib
Abstract要約: モデルの性能を最小限に抑えた重畳時間ガラスネットワークの軽量化を設計する。軽量の2段式時計は、深く分離可能な畳み込みを備えたチャンネルの数を減らしている。最終モデルは、パラメータ数が79%減少し、MAddsも同様の低下で、性能が限界低下する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human pose estimation (HPE) is a classical task in computer vision that focuses on representing the orientation of a person by identifying the positions of their joints. We design a lighterversion of the stacked hourglass network with minimal loss in performance of the model. The lightweight 2-stacked hourglass has a reduced number of channels with depthwise separable convolutions, residual connections with concatenation, and residual connections between the necks of the hourglasses. The final model has a marginal drop in performance with 79% reduction in the number of parameters and a similar drop in MAdds
Abstract（参考訳）: HPE(Human pose Estimation)は、コンピュータビジョンにおける古典的なタスクであり、関節の位置を特定して人の向きを表現することに焦点を当てている。我々は,モデルの性能を最小に抑えながら,積み重ねられた砂時計網の軽量化を設計。軽量の2段式時計は、奥行きの分離可能な畳み込み、連結による残差接続、および時計の首間の残差接続を有するチャネル数を減らしている。最終モデルは、パラメータ数が79%減少し、MAddsも同様の低下で、性能が限界低下する。

関連論文リスト

When Distance Distracts: Representation Distance Bias in BT-Loss for Reward Models [55.444604697848426]
リワードモデルは、RLHFのフレームワーク内のLarge Language Model (LLM)アライメントの中心である。報酬モデリングで使用される標準的な目的はBradley-Terry(BT)損失であり、これは選択された2つの応答と拒否された応答からなるペアワイズデータから学習する。適応型ペアワイド正規化方式であるNormBTを提案する。
論文参考訳（メタデータ） (2025-12-06T08:15:37Z)
Joint angle model based learning to refine kinematic human pose estimation [8.6527127612359]
現在のヒトのポーズ推定(HPE)は、キーポイント認識における時折エラーとキーポイント軌跡におけるランダムな変動に悩まされる。本稿では,関節角度に基づくモデリングにより,難易度を克服する手法を提案する。双方向リカレントネットワークは、確立されたHRNetの推定を洗練するための後処理モジュールとして設計されている。
論文参考訳（メタデータ） (2025-07-15T08:16:39Z)
Attention-Enhanced Lightweight Hourglass Network for Human Pose Estimation [6.885386072475789]
本稿では,奥行き分離可能な畳み込みと畳み込みブロック注意モジュールを利用する軽量な注目型ポーズ推定ネットワークを提案する。このモデルは2.3Mパラメータと3.7G FLOPでこの性能を達成する。
論文参考訳（メタデータ） (2024-12-09T06:02:07Z)
Lost-in-Distance: Impact of Contextual Proximity on LLM Performance in Graph Tasks [10.899834454573215]
大規模言語モデルでは,意味のある文脈データを効率的に取得・処理する能力に障害のある盲点が示される。本研究では, 損失-in-distance現象の定式化を提案し, 損失-in-distance現象と損失-in-the middle現象が独立に発生することを示す。
論文参考訳（メタデータ） (2024-10-02T19:45:19Z)
Occlusion Resilient 3D Human Pose Estimation [52.49366182230432]
排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つとして残されている。単一カメラシーケンスからポーズを推測する最先端技術と比較して,このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-02-16T19:29:43Z)
Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文参考訳（メタデータ） (2023-12-03T04:20:02Z)
Spatio-temporal MLP-graph network for 3D human pose estimation [8.267311047244881]
グラフ畳み込みネットワークとその変種は3次元人間のポーズ推定において大きな可能性を示している。暗黙の伝搬フェアリングを用いたグラフフィルタリングにより得られる新しい重み付きヤコビ特徴則を導入する。また, 関節間の関係を学習するために, 隣接変調を用いた。
論文参考訳（メタデータ） (2023-08-29T14:00:55Z)
AffineGlue: Joint Matching and Robust Estimation [74.04609046690913]
AffineGlue, 連立2視点特徴マッチングとロバストな推定法を提案する。 AffineGlueは、最小限のモデルを推定するために、1対多の対応から潜在的なマッチを選択する。ガイドマッチングはモデルと一致した一致を見つけるために使用され、1対1の一致の曖昧さに悩まされる。
論文参考訳（メタデータ） (2023-07-28T08:05:36Z)
CapsFlow: Optical Flow Estimation with Capsule Networks [25.17460345300064]
カプセルは分離実体とそれらのポーズを連続行列としてモデル化するために特化される。本研究では,データセット内のカプセルによって検出されたオブジェクトのポーズに対する単純な線形操作が,フローをモデル化するのに十分であることを示す。本研究では,FlowNetおよびPWC-Netモデルより優れた小型玩具について述べる。
論文参考訳（メタデータ） (2023-04-01T12:35:41Z)
MOS: A Low Latency and Lightweight Framework for Face Detection, Landmark Localization, and Head Pose Estimation [37.537102697992395]
顔検出,ランドマークの定位,頭部ポーズ推定を同時に行うために,低レイテンシで軽量なネットワークを提案する。大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。また,各タスクの重みを自動的に学習するために,不確実なマルチタスク損失を提案する。
論文参考訳（メタデータ） (2021-10-21T08:05:53Z)
Learning Monocular Visual Odometry via Self-Supervised Long-Term Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文参考訳（メタデータ） (2020-07-21T17:59:01Z)
GarNet++: Improving Fast and Accurate Static3D Cloth Draping by Curvature Loss [89.96698250086064]
仮想3次元体上にテンプレート布を視覚的に可視的に描画する2ストリームディープネットワークモデルを提案する。我々のネットワークは、計算時間を桁違いに減らしながら、物理ベースシミュレーション(PBS)法を模倣することを学ぶ。身体形状とポーズの異なる4種類の衣服の枠組みを検証した。
論文参考訳（メタデータ） (2020-07-20T13:40:15Z)
3D Pose Detection in Videos: Focusing on Occlusion [0.4588028371034406]
我々は,映像中の隠蔽型3Dポーズ検出のための既存の手法を構築した。我々は,2次元ポーズ予測を生成するために,積み重ねられた時間ガラスネットワークからなる2段階アーキテクチャを実装した。閉鎖関節によるポーズの予測を容易にするため,シリンダーマンモデルの直感的な一般化を導入する。
論文参考訳（メタデータ） (2020-06-24T07:01:17Z)
Toward fast and accurate human pose estimation via soft-gated skip connections [97.06882200076096]
本稿では,高精度かつ高効率な人間のポーズ推定について述べる。我々は、最先端技術よりも精度と効率を両立させる文脈において、この設計選択を再分析する。本モデルでは,MPII と LSP のデータセットから最先端の結果が得られる。
論文参考訳（メタデータ） (2020-02-25T18:51:51Z)
Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文参考訳（メタデータ） (2020-01-09T17:00:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。