論文の概要: OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection
- arxiv url: http://arxiv.org/abs/2509.04324v1
- Date: Thu, 04 Sep 2025 15:42:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.207203
- Title: OVGrasp: Open-Vocabulary Grasping Assistance via Multimodal Intent Detection
- Title(参考訳): OVGrasp:マルチモーダルインテント検出によるオープンボキャブラリグラフ作成支援
- Authors: Chen Hu, Shan Luo, Letizia Gionfrida,
- Abstract要約: OVGraspはソフトな外骨格に基づくグリップアシストのための階層的な制御フレームワークである。
RGB-Dビジョン、オープン語彙プロンプト、音声コマンドを統合して、堅牢なマルチモーダルインタラクションを実現する。
- 参考スコア(独自算出の注目度): 7.792391102971614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grasping assistance is essential for restoring autonomy in individuals with motor impairments, particularly in unstructured environments where object categories and user intentions are diverse and unpredictable. We present OVGrasp, a hierarchical control framework for soft exoskeleton-based grasp assistance that integrates RGB-D vision, open-vocabulary prompts, and voice commands to enable robust multimodal interaction. To enhance generalization in open environments, OVGrasp incorporates a vision-language foundation model with an open-vocabulary mechanism, allowing zero-shot detection of previously unseen objects without retraining. A multimodal decision-maker further fuses spatial and linguistic cues to infer user intent, such as grasp or release, in multi-object scenarios. We deploy the complete framework on a custom egocentric-view wearable exoskeleton and conduct systematic evaluations on 15 objects across three grasp types. Experimental results with ten participants demonstrate that OVGrasp achieves a grasping ability score (GAS) of 87.00%, outperforming state-of-the-art baselines and achieving improved kinematic alignment with natural hand motion.
- Abstract(参考訳): 運動障害のある個人、特に対象カテゴリやユーザの意図が多様で予測不可能な非構造環境において、グラフピング支援は自律性回復に不可欠である。
我々は、RGB-Dビジョン、オープン語彙プロンプト、音声コマンドを統合し、堅牢なマルチモーダルインタラクションを実現するためのソフトな外骨格に基づくグリップアシストのための階層的制御フレームワークであるOVGraspを提案する。
オープン環境での一般化を強化するため、OVGraspはオープンボキャブラリ機構を備えた視覚言語基盤モデルを導入し、再学習せずに未確認物体のゼロショット検出を可能にする。
マルチモーダル意思決定者は、さらに空間的および言語的手がかりを融合させ、マルチオブジェクトのシナリオにおいて、把握やリリースなどのユーザの意図を推測する。
我々は,エゴセントリックな独自のウェアラブルエクソスケルトン上に完全なフレームワークをデプロイし,3つのグリップタイプにわたる15のオブジェクトに対して系統的な評価を行う。
10人の被験者による実験結果から、OVGraspは87.00%の把握能力スコア(GAS)を達成し、最先端のベースラインを上回り、自然な手の動きとキネマティックアライメントの改善を実現していることが示された。
関連論文リスト
- Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - HOID-R1: Reinforcement Learning for Open-World Human-Object Interaction Detection Reasoning with Multimodal Large Language Model [13.82578761807402]
HOID-R1は,チェーン・オブ・シント(CoT)とグループ相対的ポリシー最適化のファインチューニングを統合した最初のHOI検出フレームワークである。
CoT推論における幻覚を軽減するために,CoT出力を監督するMLLM-as-a-judge機構を導入する。
実験により、HOID-R1はHOI検出ベンチマークの最先端性能を達成し、新しいシナリオへのオープンワールドの一般化における既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-15T09:28:57Z) - UNO: Unified Self-Supervised Monocular Odometry for Platform-Agnostic Deployment [22.92093036869778]
多様な環境にまたがるロバストかつ姿勢推定を可能にする統合ビジュアル・オドメトリー・フレームワークであるUNOを提案する。
われわれのアプローチは、自動運転車、ドローン、移動ロボット、ハンドヘルドデバイスなど、さまざまな現実のシナリオを効果的に一般化する。
提案手法を3つの主要なベンチマークデータセット上で広範囲に評価する。
論文 参考訳(メタデータ) (2025-06-08T06:30:37Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - Point Cloud-based Grasping for Soft Hand Exoskeleton [6.473578652011161]
本研究は、コンテキスト認識を利用して把握対象を予測し、アクティベーションのための次の制御状態を決定する視覚ベースの予測制御フレームワークを提案する。
移植能力スコア(GAS: Grasping Ability Score)は,15個の対象および健常者を対象に,最先端のGASを91%達成した。
論文 参考訳(メタデータ) (2025-04-04T11:40:04Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。