論文の概要: Grasp-HGN: Grasping the Unexpected
- arxiv url: http://arxiv.org/abs/2508.07648v1
- Date: Mon, 11 Aug 2025 05:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.964571
- Title: Grasp-HGN: Grasping the Unexpected
- Title(参考訳): Grasp-HGN: 予期せぬGrasping
- Authors: Mehrshad Zandigohar, Mallesham Dasari, Gunar Schirner,
- Abstract要約: 現在の把握モデルは、目に見えないオブジェクトに対して性能が悪く、ユーザの独立性と生活の質に悪影響を及ぼす。
本研究では,Grasp視覚言語モデルであるGrasp-LLaVAを提案する。
最後に,エッジを高速に把握できるエッジクラウドデプロイメントインフラストラクチャであるHybrid Grasp Network(HGN)を提案する。
- 参考スコア(独自算出の注目度): 1.2174549154334797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For transradial amputees, robotic prosthetic hands promise to regain the capability to perform daily living activities. To advance next-generation prosthetic hand control design, it is crucial to address current shortcomings in robustness to out of lab artifacts, and generalizability to new environments. Due to the fixed number of object to interact with in existing datasets, contrasted with the virtually infinite variety of objects encountered in the real world, current grasp models perform poorly on unseen objects, negatively affecting users' independence and quality of life. To address this: (i) we define semantic projection, the ability of a model to generalize to unseen object types and show that conventional models like YOLO, despite 80% training accuracy, drop to 15% on unseen objects. (ii) we propose Grasp-LLaVA, a Grasp Vision Language Model enabling human-like reasoning to infer the suitable grasp type estimate based on the object's physical characteristics resulting in a significant 50.2% accuracy over unseen object types compared to 36.7% accuracy of an SOTA grasp estimation model. Lastly, to bridge the performance-latency gap, we propose Hybrid Grasp Network (HGN), an edge-cloud deployment infrastructure enabling fast grasp estimation on edge and accurate cloud inference as a fail-safe, effectively expanding the latency vs. accuracy Pareto. HGN with confidence calibration (DC) enables dynamic switching between edge and cloud models, improving semantic projection accuracy by 5.6% (to 42.3%) with 3.5x speedup over the unseen object types. Over a real-world sample mix, it reaches 86% average accuracy (12.2% gain over edge-only), and 2.2x faster inference than Grasp-LLaVA alone.
- Abstract(参考訳): トランスラジアル・アンプでは、ロボット義手は日常の生活活動を行う能力を取り戻すことを約束する。
次世代の義手制御設計を進めるためには, 実験室の人工物への堅牢性, 新しい環境への一般化性といった現状の欠点に対処することが重要である。
既存のデータセットで対話するオブジェクトの数が固定されているため、現実世界で遭遇する事実上無限のさまざまなオブジェクトとは対照的であり、現在の把握モデルは、目に見えないオブジェクトに対して不十分に動作し、ユーザの独立性と生活の質に悪影響を及ぼす。
これに対処する。
i) セマンティック・プロジェクション(セマンティック・プロジェクション), オブジェクトの型を一般化するモデルの能力を定義し, YOLOのような従来のモデルは, 80%のトレーニング精度にもかかわらず, 未確認オブジェクトに対して15%まで低下することを示す。
(i)Grasp-LLaVAは,物体の物理的特性に基づいて,人間のような推論が適切な把握型推定を推定できるGrasp視覚言語モデルである。その結果,SOTAの把握型推定モデルの36.7%の精度と比較して,未確認の対象型に対して50.2%の精度が得られた。
最後に、パフォーマンスとレイテンシのギャップを埋めるため、エッジ上の高速な把握と、フェールセーフとしての正確なクラウド推論を可能にするエッジクラウドデプロイメントインフラストラクチャであるHGN(Hybrid Grasp Network)を提案し、Paretoのレイテンシと精度を効果的に拡張した。
信頼性キャリブレーション(DC)を備えたHGNは、エッジとクラウドモデルの動的切り替えを可能にし、セマンティックプロジェクションの精度を5.6%(42.3%)改善し、未確認のオブジェクトの3.5倍のスピードアップを実現している。
実世界のサンプルミックスでは、平均精度は86%に達し(エッジのみよりも12.2%向上)、Grasp-LLaVA単独よりも2.2倍速い。
関連論文リスト
- Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - VST-Pose: A Velocity-Integrated Spatiotem-poral Attention Network for Human WiFi Pose Estimation [10.371863139473456]
VST-Poseは、WiFiチャネルの状態情報を用いた正確なポーズ推定のための新しいフレームワークである。
提案手法はPCK@50の精度を92.2%向上し,PCK@50の精度を8.3%向上させた。
提案システムは,室内環境下での連続した人間の動作分析のための信頼性とプライバシを意識したソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-13T15:11:18Z) - Efficient Brain Tumor Classification with Lightweight CNN Architecture: A Novel Approach [0.0]
MRI画像を用いた脳腫瘍の分類は、早期かつ正確な検出が患者の予後に大きな影響を及ぼす医療診断において重要である。
近年のディープラーニング(DL)の進歩は将来性を示しているが、多くのモデルは精度と計算効率のバランスに苦慮している。
本稿では,分離可能な畳み込みと圧縮・励振ブロック(SEブロック)を統合した新しいモデルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-01T21:06:42Z) - Uncertainty-boosted Robust Video Activity Anticipation [72.14155465769201]
ビデオアクティビティの予測は、ロボットビジョンから自動運転まで幅広い応用可能性を受け入れることで、将来何が起こるかを予測することを目的としている。
近年の進展にもかかわらず、コンテンツ進化過程やイベントラベルの動的相関として反映されたデータ不確実性問題は、何らかの形で無視されている。
本研究では,予測結果の信頼性を示す不確実な値を生成する,不確実性を考慮した頑健なビデオアクティビティ予測フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-29T12:31:38Z) - Quantifying Uncertainty in Motion Prediction with Variational Bayesian Mixture [17.78048571619575]
安全と堅牢性は、信頼できる自動運転車を開発する上で重要な要素である。
本研究では,1つの移動物体に対する将来の軌跡の分布を記述する生成モデルSeNeVAを提案する。
提案手法は,不確実性を定量化し,競争性能を向上しつつ,アウト・オブ・ディストリビューションデータを識別することができる。
論文 参考訳(メタデータ) (2024-04-04T20:04:12Z) - Exploring the Effectiveness of Dataset Synthesis: An application of
Apple Detection in Orchards [68.95806641664713]
本研究では,リンゴ樹の合成データセットを生成するための安定拡散2.1-baseの有用性について検討する。
我々は、現実世界のリンゴ検出データセットでリンゴを予測するために、YOLOv5mオブジェクト検出モデルを訓練する。
その結果、実世界の画像でトレーニングされたベースラインモデルと比較して、生成データでトレーニングされたモデルはわずかに性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2023-06-20T09:46:01Z) - A Computer Vision Enabled damage detection model with improved YOLOv5
based on Transformer Prediction Head [0.0]
現在の最先端ディープラーニング(DL)に基づく損傷検出モデルは、複雑でノイズの多い環境では優れた特徴抽出能力を欠いていることが多い。
DenseSPH-YOLOv5は、DenseNetブロックをバックボーンに統合したリアルタイムDLベースの高性能損傷検出モデルである。
DenseSPH-YOLOv5は平均平均精度(mAP)が85.25%、F1スコアが81.18%、精度(P)が89.51%である。
論文 参考訳(メタデータ) (2023-03-07T22:53:36Z) - Modeling Object Dissimilarity for Deep Saliency Prediction [86.14710352178967]
本稿では,複数の物体間の差分をモデル化する検出誘導サリエンシー予測ネットワークについて紹介する。
私たちのアプローチは一般的であり、深いサリエンシー予測ネットワークから抽出された特徴とオブジェクトの不類似性を融合させることができます。
論文 参考訳(メタデータ) (2021-04-08T16:10:37Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。