論文の概要: SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.22514v1
- Date: Thu, 26 Feb 2026 01:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.463509
- Title: SignVLA: A Gloss-Free Vision-Language-Action Framework for Real-Time Sign Language-Guided Robotic Manipulation
- Title(参考訳): SignVLA: リアルタイム手話誘導ロボットマニピュレーションのためのグロスフリービジョンランゲージ・アクション・フレームワーク
- Authors: Xinyu Tan, Ningwei Bai, Harry Gardener, Zhengyang Zhong, Luoyu Zhang, Liuhaichen Yang, Zhekai Duan, Monkgogi Galeitsiwe, Zezhi Tang,
- Abstract要約: 人間のロボット同士の対話を直感的に行うための,最初の手話駆動型ビジョン・ランゲージ・アクション(VLA)フレームワークを提案する。
中間管理として光沢アノテーションを頼りにしている従来の手法とは異なり、提案システムは光沢のないパラダイムを採用する。
我々は,ロボット制御のためのロバストで低遅延な通信チャネルを提供する,リアルタイムのアルファベットレベルフィンガースペルインタフェースに注力する。
- 参考スコア(独自算出の注目度): 1.4175612723267692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present, to our knowledge, the first sign language-driven Vision-Language-Action (VLA) framework for intuitive and inclusive human-robot interaction. Unlike conventional approaches that rely on gloss annotations as intermediate supervision, the proposed system adopts a gloss-free paradigm and directly maps visual sign gestures to semantic instructions. This design reduces annotation cost and avoids the information loss introduced by gloss representations, enabling more natural and scalable multimodal interaction. In this work, we focus on a real-time alphabet-level finger-spelling interface that provides a robust and low-latency communication channel for robotic control. Compared with large-scale continuous sign language recognition, alphabet-level interaction offers improved reliability, interpretability, and deployment feasibility in safety-critical embodied environments. The proposed pipeline transforms continuous gesture streams into coherent language commands through geometric normalization, temporal smoothing, and lexical refinement, ensuring stable and consistent interaction. Furthermore, the framework is designed to support future integration of transformer-based gloss-free sign language models, enabling scalable word-level and sentence-level semantic understanding. Experimental results demonstrate the effectiveness of the proposed system in grounding sign-derived instructions into precise robotic actions under diverse interaction scenarios. These results highlight the potential of the framework to advance accessible, scalable, and multimodal embodied intelligence.
- Abstract(参考訳): 我々の知る限りでは、人間のロボットとの対話を直感的かつ包括的に行うための最初の手話駆動型ビジョン・ランゲージ・アクション(VLA)フレームワークを提示する。
中間管理として光沢アノテーションを頼りにしている従来の手法とは異なり、提案システムは光沢のないパラダイムを採用し、視覚的な手話のジェスチャーを直接意味的な指示にマッピングする。
この設計はアノテーションのコストを低減し、グロス表現によって引き起こされる情報損失を回避し、より自然でスケーラブルなマルチモーダルインタラクションを可能にする。
本研究では,ロボット制御のためのロバストで低遅延な通信路を提供する,リアルタイムのアルファベットレベルフィンガースペルインタフェースに焦点を当てる。
大規模な連続手話認識と比較して、アルファベットレベルの相互作用は、安全クリティカルな実施環境における信頼性、解釈可能性、デプロイメントの実現可能性を向上させる。
提案したパイプラインは, 幾何正規化, 時間的平滑化, 語彙的洗練を通じて, 連続的なジェスチャーストリームをコヒーレント言語コマンドに変換することにより, 安定かつ一貫した相互作用を確保する。
さらに、このフレームワークは、トランスフォーマーベースのグロスフリー手話モデルの将来の統合をサポートし、スケーラブルな単語レベルと文レベルのセマンティック理解を可能にするように設計されている。
実験により,多様な相互作用シナリオ下での高精度なロボット動作に手話由来の指示を接地するシステムの有効性が示された。
これらの結果は、アクセシビリティ、スケーラブル、マルチモーダルなインテリジェンスを進化させるフレームワークの可能性を強調している。
関連論文リスト
- An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction [0.0]
本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。
提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。
コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
論文 参考訳(メタデータ) (2026-02-23T09:05:15Z) - Language-Guided Grasp Detection with Coarse-to-Fine Learning for Robotic Manipulation [31.386822229629455]
本稿では,ロボット操作のための粗粒度学習パラダイムを用いた言語誘導グラフ検出(LGGD)を提案する。
この設計により、きめ細かいビジュアル・セマンティックなアライメントが可能となり、タスク命令に対する予測された把握の実現性が改善される。
OCID-VLGとGrasp-Anything++データセットの実験は、LGGDが既存の言語誘導の把握方法を上回ることを示している。
論文 参考訳(メタデータ) (2025-12-24T09:16:42Z) - Behavior Tokens Speak Louder: Disentangled Explainable Recommendation with Behavior Vocabulary [22.925582428795437]
BEATは、ユーザとアイテムの振る舞いを個別に解釈可能なシーケンスにトークン化するフレームワークです。
BEATは、一貫性のある情報的説明を生成しながら、ゼロショットレコメンデーション性能を改善していることを示す。
論文 参考訳(メタデータ) (2025-12-17T17:24:24Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Cognitively-Inspired Emergent Communication via Knowledge Graphs for Assisting the Visually Impaired [8.182196998385583]
本稿では,人間の視覚知覚と認知マッピングをエミュレートする新しいフレームワーク,Cognitively-Inspired Emergent Communication via Knowledge Graphs (VAG-EC)を紹介する。
本手法は,対象とその関係を表現する知識グラフを構築し,タスク関連エンティティを優先する注意機構を導入し,人間の選択的注意を反映する。
この構造化されたアプローチは、コンパクトで解釈可能で、文脈に敏感な記号言語の出現を可能にする。
論文 参考訳(メタデータ) (2025-05-28T08:09:06Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - OV-HHIR: Open Vocabulary Human Interaction Recognition Using Cross-modal Integration of Large Language Models [4.831029473163422]
オープンな語彙と人間-人間の相互作用認識フレームワークを提案する。
我々は、オープンワールド設定において、目視と目視の両方の人間のインタラクションについて、オープンエンドのテキスト記述を生成する。
本手法は,ビデオ理解のための従来の固定語彙分類システムや既存のクロスモーダル言語モデルよりも優れている。
論文 参考訳(メタデータ) (2024-12-31T13:22:00Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - VIRT: Improving Representation-based Models for Text Matching through
Virtual Interaction [50.986371459817256]
本稿では,VIRT と呼ばれる新しいtextitVirtual InteRacTion 機構を提案する。
VIRTは、表現ベースのエンコーダに、対話ベースのモデルのように振舞いを模倣する仮想インタラクションを実行するよう要求する。
論文 参考訳(メタデータ) (2021-12-08T09:49:28Z) - Learning Adaptive Language Interfaces through Decomposition [89.21937539950966]
本稿では,分解による新しいハイレベルな抽象化を学習するニューラルセマンティック解析システムを提案する。
ユーザは、新しい振る舞いを記述する高レベルな発話を低レベルなステップに分解することで、対話的にシステムを教える。
論文 参考訳(メタデータ) (2020-10-11T08:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。