Fugu-MT 論文翻訳(概要): Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

論文の概要: Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

arxiv url: http://arxiv.org/abs/2602.20658v1
Date: Tue, 24 Feb 2026 08:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.664169
Title: Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video
Title（参考訳）: 手指リフティング作業のエルゴノミクス評価のための視覚言語モデル:RGBビデオから水平手と垂直手の距離を推定する
Authors: Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim, Maury A. Nussbaum,
Abstract要約: Revised NIOSH Lifting Equation (RNLE)は、水平(H)と垂直(V)の手の距離に依存するタスクを持ち上げるための人間工学的リスク評価ツールである。 RGBビデオストリームからHとVを非侵襲的に推定するための革新的視覚言語モデル(VLM)の有用性を評価した。
参考スコア（独自算出の注目度）: 0.91196622823436
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Manual lifting tasks are a major contributor to work-related musculoskeletal disorders, and effective ergonomic risk assessment is essential for quantifying physical exposure and informing ergonomic interventions. The Revised NIOSH Lifting Equation (RNLE) is a widely used ergonomic risk assessment tool for lifting tasks that relies on six task variables, including horizontal (H) and vertical (V) hand distances; such distances are typically obtained through manual measurement or specialized sensing systems and are difficult to use in real-world environments. We evaluated the feasibility of using innovative vision-language models (VLMs) to non-invasively estimate H and V from RGB video streams. Two multi-stage VLM-based pipelines were developed: a text-guided detection-only pipeline and a detection-plus-segmentation pipeline. Both pipelines used text-guided localization of task-relevant regions of interest, visual feature extraction from those regions, and transformer-based temporal regression to estimate H and V at the start and end of a lift. For a range of lifting tasks, estimation performance was evaluated using leave-one-subject-out validation across the two pipelines and seven camera view conditions. Results varied significantly across pipelines and camera view conditions, with the segmentation-based, multi-view pipeline consistently yielding the smallest errors, achieving mean absolute errors of approximately 6-8 cm when estimating H and 5-8 cm when estimating V. Across pipelines and camera view configurations, pixel-level segmentation reduced estimation error by approximately 20-30% for H and 35-40% for V relative to the detection-only pipeline. These findings support the feasibility of VLM-based pipelines for video-based estimation of RNLE distance parameters.
Abstract（参考訳）: 手動浮揚作業は仕事に関連した筋骨格障害の主要な要因であり、身体曝露の定量化やエルゴノミクス介入のインフォームには効果的なエルゴノミクスリスクアセスメントが不可欠である。改訂NIOSHリフティング方程式(Revised NIOSH Lifting Equation, RNLE)は、水平(H)と垂直(V)ハンド距離を含む6つのタスク変数に依存するタスクを持ち上げるために広く使われている人間工学的リスク評価ツールである。 RGBビデオストリームからHとVを非侵襲的に推定するための革新的視覚言語モデル(VLM)の有用性を評価した。テキスト誘導検出専用パイプラインと検出+分離パイプラインの2つのマルチステージVLMベースのパイプラインが開発された。どちらのパイプラインも、タスク関連領域のテキストガイドによるローカライズ、それらの領域からの視覚的特徴抽出、およびトランスフォーマーベースの時間回帰を用いて、リフトの開始と終了時にHとVを推定した。昇降作業の範囲について,2つのパイプラインと7つのカメラビュー条件間での残差検定を用いて,推定性能を評価した。画素レベルのセグメンテーションにより,検出のみのパイプラインに対して,画素レベルのセグメンテーションで推定誤差を約20～30%,検出のみのパイプラインに対して35～40%削減した。これらの結果は,ビデオによるRNLE距離パラメータ推定のためのVLMパイプラインの実現性を支持する。

関連論文リスト

A Multi-View Pipeline and Benchmark Dataset for 3D Hand Pose Estimation in Surgery [1.120882117110929]
外科的文脈における3次元手ポーズ推定のための頑健なパイプラインを提案する。パイプラインは、信頼できる人物検出、全身ポーズ推定、最先端の2Dハンドキーポイント予測を統合する。 68,000枚以上のフレームと3000枚以上の手書き2Dハンドポーズからなる新しい手術用ベンチマークデータセットを導入する。
論文参考訳（メタデータ） (2026-01-22T12:48:24Z)
Efficient and Accurate Downfacing Visual Inertial Odometry [18.91672527573445]
本稿では,マイクロUAVとナノUAVに最適化した,効率的かつ高精度なVIOパイプラインを提案する。提案手法は, RISC-Vをベースとした超低消費電力並列システムに最適化・定量化されている。
論文参考訳（メタデータ） (2025-09-12T07:30:24Z)
APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文参考訳（メタデータ） (2025-04-03T11:48:56Z)
IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks [57.940401122426664]
完全な微調整のパラダイムの下では、特徴空間は高度に制約され、低ランクとなり、これは深刻な一般化を損なうことが証明されている。本稿では,主観的オブジェクト検出,セマンティックセグメンテーション,オブジェクト検出など,様々なIR-VIS下流タスクにPVMをパラメータ効率よく活用するIV-tuningを提案する。完全な微調整ベースラインと既存のIR-VIS法と比較して、IV-tuningは、バックボーンパラメータの3%未満で、赤外線と可視光の相補的な情報の学習を容易にする。
論文参考訳（メタデータ） (2024-12-21T14:54:41Z)
VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。 VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文参考訳（メタデータ） (2024-11-26T14:08:34Z)
MPVO: Motion-Prior based Visual Odometry for PointGoal Navigation [3.9974562667271507]
視覚計測(VO)は,室内環境におけるエンボディエージェントの正確なポイントゴールナビゲーションを可能にするために不可欠である。近年の深層学習VO法は, 頑健な性能を示すが, トレーニング中のサンプル不効率に悩まされている。エージェントが環境をナビゲートしている間に利用可能な動作先に基づいて、ロバストでサンプル効率の良いVOパイプラインを提案する。
論文参考訳（メタデータ） (2024-11-07T15:36:49Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Analyzing Participants' Engagement during Online Meetings Using Unsupervised Remote Photoplethysmography with Behavioral Features [50.82725748981231]
エンゲージメント測定は、医療、教育、サービスに応用される。生理的特徴と行動的特徴の使用は可能であるが、従来の生理的測定の非現実性は接触センサーの必要性により生じる。コンタクトセンサの代替として, 教師なし光胸腺造影(胸腔鏡)の有用性を実証する。
論文参考訳（メタデータ） (2024-04-05T20:39:16Z)
Multi-Robot Relative Pose Estimation in SE(2) with Observability Analysis: A Comparison of Extended Kalman Filtering and Robust Pose Graph Optimization [1.0485739694839669]
本研究では,相対的なポーズ推定の協調的局所化と可観測性分析に着目する。 ROS/Gazeboシミュレーションでは,4つのセンシング・通信構造について検討する。ハードウェア実験では、UWBモジュールを備えた2つのTurtlebot3がロボット間の相対的なポーズ推定に使用される。
論文参考訳（メタデータ） (2024-01-27T06:09:56Z)
Let's Roll: Synthetic Dataset Analysis for Pedestrian Detection Across Different Shutter Types [7.0441427250832644]
本稿では,機械学習(ML)オブジェクト検出モデルに異なるシャッター機構が与える影響について検討する。特に、合成合成されたGSとRSのデータセットを用いて、主流検出モデルを訓練し、評価する。
論文参考訳（メタデータ） (2023-09-15T04:07:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。