論文の概要: A Surveillance Based Interactive Robot
- arxiv url: http://arxiv.org/abs/2508.13319v1
- Date: Mon, 18 Aug 2025 19:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.709731
- Title: A Surveillance Based Interactive Robot
- Title(参考訳): 監視型対話型ロボット
- Authors: Kshitij Kavimandan, Pooja Mangal, Devanshi Mehta,
- Abstract要約: 我々はモバイル監視ロボットを構築し、リアルタイムで動画をストリーミングし、ユーザーがスマートフォンやブラウザから監視し、操作できるように音声に反応する。
このシステムはRaspberry Pi 4の2つのユニットを使っている。カメラ、マイク、スピーカーを備えたディファレンシャルドライブベース上のフロントユニットと、ライブフィードを提供し、知覚を実行する中央ユニットだ。
音声対話では、音声認識、多言語翻訳、音声合成にPythonライブラリを使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We build a mobile surveillance robot that streams video in real time and responds to speech so a user can monitor and steer it from a phone or browser. The system uses two Raspberry Pi 4 units: a front unit on a differential drive base with camera, mic, and speaker, and a central unit that serves the live feed and runs perception. Video is sent with FFmpeg. Objects in the scene are detected using YOLOv3 to support navigation and event awareness. For voice interaction, we use Python libraries for speech recognition, multilingual translation, and text-to-speech, so the robot can take spoken commands and read back responses in the requested language. A Kinect RGB-D sensor provides visual input and obstacle cues. In indoor tests the robot detects common objects at interactive frame rates on CPU, recognises commands reliably, and translates them to actions without manual control. The design relies on off-the-shelf hardware and open software, making it easy to reproduce. We discuss limits and practical extensions, including sensor fusion with ultrasonic range data, GPU acceleration, and adding face and text recognition.
- Abstract(参考訳): 我々はモバイル監視ロボットを構築し、リアルタイムで動画をストリーミングし、ユーザーがスマートフォンやブラウザから監視し、操作できるように音声に反応する。
このシステムはRaspberry Pi 4の2つのユニットを使っている。カメラ、マイク、スピーカーを備えたディファレンシャルドライブベース上のフロントユニットと、ライブフィードを提供し、知覚を実行する中央ユニットだ。
ビデオはFFmpegで送信される。
シーン内のオブジェクトは、ナビゲーションとイベントの認識をサポートするためにYOLOv3を使用して検出される。
音声対話では、音声認識、多言語翻訳、テキスト音声合成にPythonライブラリを使用し、ロボットは音声コマンドを受信し、要求された言語で応答を読み返すことができる。
Kinect RGB-Dセンサーは視覚的な入力と障害物の手がかりを提供する。
屋内テストでは、ロボットはCPU上の対話的なフレームレートで一般的な物体を検出し、コマンドを確実に認識し、手動制御なしで動作に変換する。
このデザインは市販のハードウェアとオープンソフトウェアに依存しており、簡単に再現できる。
本稿では,超音波レンジデータとのセンサ融合,GPUアクセラレーション,顔とテキストの認識の追加など,限界と実用的な拡張について論じる。
関連論文リスト
- Extraction Of Cumulative Blobs From Dynamic Gestures [0.0]
ジェスチャー認識は、コンピュータが人間の動きをコマンドとして解釈できるCV技術に基づいている。
モーションキャプチャー用のカメラとして、簡単なナイトビジョンカメラが使用できる。
カメラからのビデオストリームは、OpenCVモジュールを実行するPythonプログラムを備えたRaspberry Piに入力される。
論文 参考訳(メタデータ) (2025-01-07T18:59:28Z) - ChatCam: Empowering Camera Control through Conversational AI [67.31920821192323]
ChatCamは、ユーザーとの会話を通じてカメラの動きをナビゲートするシステムである。
そこで本研究では,テキスト条件付きカメラ軌道生成のためのGPTに基づく自己回帰モデルであるCineGPTを提案する。
また、正確なカメラ軌道配置を保証するアンカー決定器も開発した。
論文 参考訳(メタデータ) (2024-09-25T20:13:41Z) - InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT
Beyond Language [82.92236977726655]
InternGPTは textbfinteraction, textbfnonverbal, textbfchatbot の略である。
InternGPT(iGPT)という対話型視覚フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:58:34Z) - Natural Language Robot Programming: NLP integrated with autonomous
robotic grasping [1.7045152415056037]
本稿では,ロボットプログラミングのための文法に基づく自然言語フレームワークについて述べる。
私たちのアプローチでは、意味を共有する単語をまとめて格納するために設計された、アクションワードのカスタム辞書を使用します。
我々は、Franka Pandaロボットアームを用いて、シミュレーションと実世界の実験を通して、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2023-04-06T11:06:30Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Implementation Of Tiny Machine Learning Models On Arduino 33 BLE For
Gesture And Speech Recognition [6.8324958655038195]
手ジェスチャー認識の実装において、TinyMLモデルは、手ジェスチャー認識のためのEdgeImpulseフレームワークからトレーニングされ、デプロイされる。
音声認識の実装において、TinyMLモデルは、音声認識のためのEdgeImpulseフレームワークから訓練され、デプロイされる。
Arduino Nano 33 BLEデバイスにはマイクが内蔵されている。
論文 参考訳(メタデータ) (2022-07-23T10:53:26Z) - Self-supervised reinforcement learning for speaker localisation with the
iCub humanoid robot [58.2026611111328]
人の顔を見ることは、ノイズの多い環境での音声のフィルタリングに人間が依存するメカニズムの1つである。
スピーカーに目を向けるロボットを持つことは、挑戦的な環境でのASRのパフォーマンスに恩恵をもたらす可能性がある。
本稿では,人間の初期発達に触発された自己指導型強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-12T18:02:15Z) - VGAI: End-to-End Learning of Vision-Based Decentralized Controllers for
Robot Swarms [237.25930757584047]
ビジュアル入力のみに基づいて分散制御系を学習することを提案する。
初めて、コミュニケーションと視覚知覚という2つの重要な要素の学習を統合する。
提案する学習フレームワークは,各ロボットが視覚入力からメッセージを取り出すための畳み込みニューラルネットワーク(CNN)と,これらのメッセージの送信,受信,処理を行うためのSwarm全体のグラフニューラルネットワーク(GNN)を組み合わせる。
論文 参考訳(メタデータ) (2020-02-06T15:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。