論文の概要: PISHYAR: A Socially Intelligent Smart Cane for Indoor Social Navigation and Multimodal Human-Robot Interaction for Visually Impaired People
- arxiv url: http://arxiv.org/abs/2602.12597v1
- Date: Fri, 13 Feb 2026 04:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.422517
- Title: PISHYAR: A Socially Intelligent Smart Cane for Indoor Social Navigation and Multimodal Human-Robot Interaction for Visually Impaired People
- Title(参考訳): PISHYAR:視覚障害者のための屋内ソーシャルナビゲーションとマルチモーダルヒューマンロボットインタラクションのための社会的に知能なスマート杖
- Authors: Mahdi Haghighat Joo, Maryam Karimi Jafari, Alireza Taheri,
- Abstract要約: PISHYARは、ナビゲーションとマルチモーダルなヒューマン-AIインタラクションを組み合わせて、物理的なモビリティとインタラクティブなアシストをサポートするスマート杖である。
このシステムはシミュレーションベースのテスト、実世界のフィールド実験、ユーザー中心の研究を組み合わせることで評価される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents PISHYAR, a socially intelligent smart cane designed by our group to combine socially aware navigation with multimodal human-AI interaction to support both physical mobility and interactive assistance. The system consists of two components: (1) a social navigation framework implemented on a Raspberry Pi 5 that integrates real-time RGB-D perception using an OAK-D Lite camera, YOLOv8-based object detection, COMPOSER-based collective activity recognition, D* Lite dynamic path planning, and haptic feedback via vibration motors for tasks such as locating a vacant seat; and (2) an agentic multimodal LLM-VLM interaction framework that integrates speech recognition, vision language models, large language models, and text-to-speech, with dynamic routing between voice-only and vision-only modes to enable natural voice-based communication, scene description, and object localization from visual input. The system is evaluated through a combination of simulation-based tests, real-world field experiments, and user-centered studies. Results from simulated and real indoor environments demonstrate reliable obstacle avoidance and socially compliant navigation, achieving an overall system accuracy of approximately 80% under different social conditions. Group activity recognition further shows robust performance across diverse crowd scenarios. In addition, a preliminary exploratory user study with eight visually impaired and low-vision participants evaluates the agentic interaction framework through structured tasks and a UTAUT-based questionnaire reveals high acceptance and positive perceptions of usability, trust, and perceived sociability during our experiments. The results highlight the potential of PISHYAR as a multimodal assistive mobility aid that extends beyond navigation to provide socially interactive support for such users.
- Abstract(参考訳): 本稿では,社会に配慮したナビゲーションとマルチモーダルな人間とAIのインタラクションを組み合わせ,身体運動と対話的アシストの両方をサポートするために,我々のグループによって設計された,社会的に知的なスマート杖であるPISHYARを提案する。
OAK-D Liteカメラ、YOLOv8ベースのオブジェクト検出、ComposERベースの集合的活動認識、D*ライトのダイナミックパス計画、振動モーターによる振動フィードバックによる空席の位置決めなどのタスクによる触覚フィードバック、および、音声認識、視覚言語モデル、大規模言語モデル、テキスト音声合成を統合したエージェントマルチモーダルLLM-VLMインタラクションフレームワークと、音声のみと視覚のみのコミュニケーション、シーン記述、視覚入力からのオブジェクトローカライゼーションを可能にする動的ルーティング機能を備えた、Raspberry Pi 5上に実装されたソーシャルナビゲーションフレームワークである。
このシステムはシミュレーションベースのテスト、実世界のフィールド実験、ユーザー中心の研究を組み合わせることで評価される。
シミュレーションおよび実際の屋内環境から得られた結果は、信頼性の高い障害物回避と社会的に適合したナビゲーションを示し、社会条件下でのシステム全体の精度を約80%達成する。
グループアクティビティ認識はさらに、さまざまな群衆シナリオにおける堅牢なパフォーマンスを示している。
さらに,8人の視覚障害者と低ビジョン参加者による予備的な探索的ユーザスタディでは,構造化タスクを通してエージェントインタラクションの枠組みを評価し,UTAUTベースのアンケートでは,ユーザビリティ,信頼,社会性に対する高い受容と肯定的な認識を明らかにした。
その結果、PISHYARは、ナビゲーションを超えてソーシャルにインタラクティブなサポートを提供するマルチモーダル・アシストモビリティ・アシストとしての可能性を強調した。
関連論文リスト
- An Approach to Combining Video and Speech with Large Language Models in Human-Robot Interaction [0.0]
本研究は,高度な視覚言語モデル,音声処理,ファジィ論理を組み合わせた新しいHRIフレームワークを提案する。
提案システムは,物体検出のためのFlorence-2,自然言語理解のためのLlama 3.1,音声認識のためのWhisperを統合した。
コンシューマグレードハードウェアで行った実験の結果,コマンド実行精度は75%であった。
論文 参考訳(メタデータ) (2026-02-23T09:05:15Z) - Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI [24.545163508739943]
FreeAskWorldは対話型シミュレーションフレームワークで、大規模言語モデルを統合して、ハイレベルな振る舞い計画とセマンティックな基礎的なインタラクションを実現する。
我々のフレームワークはスケーラブルでリアルなヒューマンエージェントシミュレーションをサポートし、多様な実施タスクに適したモジュラーデータ生成パイプラインを含んでいる。
再構成環境,6種類のタスクタイプ,16のコアオブジェクトカテゴリ,63,429の注釈付きサンプルフレーム,17時間以上のインタラクションデータからなる大規模ベンチマークデータセットであるFreeAskWorldを公開・公開する。
論文 参考訳(メタデータ) (2025-11-17T15:58:46Z) - MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [85.04826012938642]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。
フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。
生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文 参考訳(メタデータ) (2025-08-04T03:07:54Z) - HA-VLN 2.0: An Open Benchmark and Leaderboard for Human-Aware Navigation in Discrete and Continuous Environments with Dynamic Multi-Human Interactions [64.69468932145234]
HA-VLN 2.0は、明示的な社会的認識制約を導入した統一ベンチマークである。
その結果、明示的な社会的モデリングはナビゲーションの堅牢性を向上し、衝突を減らすことが示唆された。
論文 参考訳(メタデータ) (2025-03-18T13:05:55Z) - Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - A Study on Learning Social Robot Navigation with Multimodal Perception [6.052803245103173]
本稿では,大規模実世界のデータセットを用いたマルチモーダル認識を用いた社会ロボットナビゲーションの学習について述べる。
我々は,一助学習と多モーダル学習のアプローチを,異なる社会シナリオにおける古典的なナビゲーション手法のセットと比較する。
その結果、マルチモーダル学習は、データセットと人的学習の両方において、一助学習よりも明らかな優位性を持つことが示された。
論文 参考訳(メタデータ) (2023-09-22T01:47:47Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Mutual Scene Synthesis for Mixed Reality Telepresence [4.504833177846264]
混合現実テレプレゼンス(Mixed Reality Telepresence)により、参加者は2Dスクリーンベースのコミュニケーション方法では以前は不可能だった幅広い活動に参加することができる。
本稿では,参加者の空間を入力として捉え,各参加者の局所的な空間の機能に対応する仮想合成シーンを生成する,新たな相互シーン合成手法を提案する。
本手法は,相互関数最適化モジュールと深層学習条件付きシーン拡張プロセスを組み合わせることで,複合現実テレプレゼンスシナリオの全参加者に対して相互に,物理的にアクセス可能なシーンを生成する。
論文 参考訳(メタデータ) (2022-04-01T02:08:11Z) - Robot Perception enables Complex Navigation Behavior via Self-Supervised
Learning [23.54696982881734]
本稿では、強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクのためのロボット認識システムの統合手法を提案する。
提案手法は,1つの画像列から直接自己スーパービジョンを用いて得られる,コンパクトな動きと視覚知覚データを時間的に組み込む。
我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。
論文 参考訳(メタデータ) (2020-06-16T07:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。