論文の概要: Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots
- arxiv url: http://arxiv.org/abs/2603.05751v1
- Date: Thu, 05 Mar 2026 23:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.964281
- Title: Vision-Language System using Open-Source LLMs for Gestures in Medical Interpreter Robots
- Title(参考訳): 医用通訳ロボットにおけるジェスチャのためのオープンソースLCMを用いた視覚言語システム
- Authors: Thanh-Tung Ngo, Emma Murphy, Robert J. Ross,
- Abstract要約: 本稿では,医療用インタプリタロボットのためのプライバシー保護型視覚言語フレームワークを提案する。
特定の音声行為(内容と指示)を検出し、対応するロボットジェスチャーを生成する。
また,音声行動に注釈を付け,ジェスチャークリップと組み合わせた新たな臨床会話データセットも紹介した。
- 参考スコア(独自算出の注目度): 0.8156494881838946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective communication is vital in healthcare, especially across language barriers, where non-verbal cues and gestures are critical. This paper presents a privacy-preserving vision-language framework for medical interpreter robots that detects specific speech acts (consent and instruction) and generates corresponding robotic gestures. Built on locally deployed open-source models, the system utilizes a Large Language Model (LLM) with few-shot prompting for intent detection. We also introduce a novel dataset of clinical conversations annotated for speech acts and paired with gesture clips. Our identification module achieved 0.90 accuracy, 0.93 weighted precision, and a 0.91 weighted F1-Score. Our approach significantly improves computational efficiency and, in user studies, outperforms the speech-gesture generation baseline in human-likeness while maintaining comparable appropriateness.
- Abstract(参考訳): 効果的なコミュニケーションは医療において不可欠であり、特に非言語的手がかりやジェスチャーが不可欠である言語障壁を越えている。
本稿では、特定の音声行為(内容と指示)を検出し、対応するロボットジェスチャーを生成する医用通訳ロボットのためのプライバシー保護型視覚言語フレームワークを提案する。
ローカルにデプロイされたオープンソースモデルに基づいて構築されたこのシステムは、意図検出のための数発のプロンプトを備えたLarge Language Model(LLM)を使用している。
また,音声行動に注釈を付け,ジェスチャークリップと組み合わせた新たな臨床会話データセットも紹介した。
我々の識別モジュールは0.90の精度、0.93の重み付き精度、0.91の重み付きF1スコアを達成した。
提案手法は計算効率を著しく向上させ, ユーザスタディにおいては, 同等の適合性を維持しつつ, 人間の類似性において, 音声・姿勢生成ベースラインを上回っている。
関連論文リスト
- An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction [0.0]
本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。
提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。
コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
論文 参考訳(メタデータ) (2026-02-23T09:05:15Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Learning to Generate Pointing Gestures in Situated Embodied Conversational Agents [19.868403110796105]
本稿では,模倣と強化学習を組み合わせることで,具体的エージェントのポインティングジェスチャーを生成する枠組みを提案する。
我々は,客観的指標と仮想空間的参照ゲームの両方において,教師付き学習と検索のベースラインに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-09-15T23:15:15Z) - Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Indian Sign Language Detection for Real-Time Translation using Machine Learning [0.1747623282473278]
畳み込みニューラルネットワーク(CNN)を用いた頑健でリアルタイムなISL検出・翻訳システムを提案する。
我々のモデルは総合的なISLデータセットに基づいて訓練され、99.95%の分類精度を達成し、例外的な性能を示す。
リアルタイム実装のために、このフレームワークはMediaPipeを統合して手の動きを正確に追跡し、動的ジェスチャーをシームレスに翻訳する。
論文 参考訳(メタデータ) (2025-07-27T21:15:46Z) - BrainLLM: Generative Language Decoding from Brain Recordings [77.66707255697706]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。