論文の概要: An Intelligent AI glasses System with Multi-Agent Architecture for Real-Time Voice Processing and Task Execution
- arxiv url: http://arxiv.org/abs/2601.06235v1
- Date: Fri, 09 Jan 2026 15:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.705816
- Title: An Intelligent AI glasses System with Multi-Agent Architecture for Real-Time Voice Processing and Task Execution
- Title(参考訳): リアルタイム音声処理とタスク実行のためのマルチエージェントアーキテクチャを用いたインテリジェントAIグラスシステム
- Authors: Sheng-Kai Chen, Jyh-Horng Wu, Ching-Yao Lin, Yen-Ting Lin,
- Abstract要約: このシステムでは、エージェント01が自動音声認識(ASR)を処理し、エージェント02が局所言語モデル(LLM)、モデルコンテキストプロトコル(MCP)ツール、検索拡張生成(RAG)を介してAI処理を管理するデュアルエージェントアーキテクチャを採用している。
このシステムは、音声およびビデオデータ送信、アイトラッキングデータ収集、RabbitMQメッセージングによるリモートタスク実行のためのリアルタイムRTSPストリーミングをサポートする。
- 参考スコア(独自算出の注目度): 4.740337082971588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an AI glasses system that integrates real-time voice processing, artificial intelligence(AI) agents, and cross-network streaming capabilities. The system employs dual-agent architecture where Agent 01 handles Automatic Speech Recognition (ASR) and Agent 02 manages AI processing through local Large Language Models (LLMs), Model Context Protocol (MCP) tools, and Retrieval-Augmented Generation (RAG). The system supports real-time RTSP streaming for voice and video data transmission, eye tracking data collection, and remote task execution through RabbitMQ messaging. Implementation demonstrates successful voice command processing with multilingual support and cross-platform task execution capabilities.
- Abstract(参考訳): 本稿では,リアルタイム音声処理,人工知能(AI)エージェント,ネットワーク間ストリーミング機能を統合したAIメガネシステムを提案する。
エージェント01が自動音声認識(ASR)を処理し、エージェント02が局所言語モデル(LLM)、モデルコンテキストプロトコル(MCP)ツール、検索拡張生成(RAG)を介してAI処理を管理する。
このシステムは、音声およびビデオデータ送信、アイトラッキングデータ収集、RabbitMQメッセージングによるリモートタスク実行のためのリアルタイムRTSPストリーミングをサポートする。
実装では、多言語サポートとクロスプラットフォームタスク実行機能を備えた音声コマンド処理が成功している。
関連論文リスト
- Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - Scaling Synthetic Task Generation for Agents via Exploration [67.70129766322985]
対話型エージェントを構築するための訓練後のマルチモーダル大言語モデル(MLLM)は、コンピュータ利用、Webナビゲーション、ロボット工学といった分野にまたがる約束を守る。
タスク生成のための既存のアプローチは、ダウンストリーム環境情報に制限のある人間のアノテーションやMLLMのプロンプトに大きく依存している。
本稿では,タスク生成のためのスケーラブルなパイプラインであるAutoPlayについて紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:00:02Z) - i-LAVA: Insights on Low Latency Voice-2-Voice Architecture for Agents [0.42970700836450487]
我々は,音声音声合成システム(V-2-V)に不可欠なコンポーネントを解析し,自動音声認識(ASR),テキスト音声合成(TTS),ダイアログ管理を行う。
我々の研究は、自然停止や宣言を含む感情に満ちた生活に似た音声を生成するTTS成分がリアルタイムファクター(RTF)に最も影響を与えることを確認した。
論文 参考訳(メタデータ) (2025-09-25T10:15:51Z) - Cued-Agent: A Collaborative Multi-Agent System for Automatic Cued Speech Recognition [17.451829471077858]
Cued Speech (CS) は、唇読取と手話による視覚コミュニケーションシステムであり、聴覚障害のある個人のためのコミュニケーションを容易にする。
自動CS認識(ACSR)は、CSハンドジェスチャと唇の動きをAI駆動方式でテキストに変換することを目的としている。
本稿では,ACSRのための協調型マルチエージェントシステムCued-Agentを提案する。
論文 参考訳(メタデータ) (2025-08-01T07:40:39Z) - AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis [0.0]
本稿では,A2AとMPPを自己実装した新しいモジュール型マルチプロトコールMASフレームワークであるAgentMasterの試験的検討を行う。
このシステムは、先行技術知識のない自然言語インタラクションをサポートし、情報検索、質問応答、画像解析を含むタスクに対するマルチモーダルクエリに応答する。
全体として、提案するフレームワークは、MASを利用したドメイン固有、協調的、スケーラブルな対話型AIの可能性に寄与する。
論文 参考訳(メタデータ) (2025-07-08T03:34:26Z) - Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - RS-Agent: Automating Remote Sensing Tasks through Intelligent Agent [15.836845304125436]
RS-Agentは、人間のユーザーと対話し、専門的なモデルを自律的に活用するように設計されたAIエージェントである。
RS-Agentは、大きな言語モデルに基づく中央コントローラ、ツール実行のための動的ツールキット、タスク固有のエキスパートガイダンスのためのソリューションスペース、ドメインレベルの推論のための知識スペースの4つの重要なコンポーネントを統合している。
9つのデータセットと18のリモートセンシングタスクにわたる大規模な実験により、RS-Agentは最先端のMLLMよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T09:30:02Z) - SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering [79.07755560048388]
SWEエージェント(SWE-agent)は、LMエージェントが自律的にコンピュータを使用してソフトウェア工学のタスクを解決するシステムである。
SWEエージェントのカスタムエージェントコンピュータインタフェース(ACI)は、エージェントがコードファイルを作成し編集し、リポジトリ全体をナビゲートし、テストやその他のプログラムを実行する能力を著しく向上させる。
我々はSWE-benchとHumanEvalFixのSWE-agentを評価し、それぞれ12.5%と87.7%のパス@1レートで最先端の性能を実現した。
論文 参考訳(メタデータ) (2024-05-06T17:41:33Z) - SpeechAgents: Human-Communication Simulation with Multi-Modal
Multi-Agent Systems [53.94772445896213]
大規模言語モデル(LLM)に基づくマルチエージェントシステムは,人間の社会をシミュレートする上で有望な性能を示した。
本研究では,マルチモーダルLLMに基づくマルチエージェントシステムであるSpeechAgentsを提案する。
論文 参考訳(メタデータ) (2024-01-08T15:01:08Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。