論文の概要: AURA: Agent for Understanding, Reasoning, and Automated Tool Use in Voice-Driven Tasks
- arxiv url: http://arxiv.org/abs/2506.23049v1
- Date: Sun, 29 Jun 2025 01:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.688004
- Title: AURA: Agent for Understanding, Reasoning, and Automated Tool Use in Voice-Driven Tasks
- Title(参考訳): AURA:音声駆動タスクにおける理解・推論・自動化ツール
- Authors: Leander Melroy Maben, Gayathri Ganesh Lakshmy, Srijith Radhakrishnan, Siddhant Arora, Shinji Watanabe,
- Abstract要約: AURA(Agent for Understanding, Reasoning, and Automated Tool Use)は、オープンソースの音声ネイティブアシスタントである。
AURAは、オープンウェイトなASR、TS、LLMをカスケードパイプラインに統合し、カレンダ予約、コンタクトルックアップ、Web検索、Eメールなどのツールをサポートする。
VoiceBenchでは、AURAは全オープンウェイトシステムで92.75%を上回り、AlpacaEvalではGPT-4oと4.39に近づき、他のオープンウェイトシステムと競合する。
- 参考スコア(独自算出の注目度): 33.656061405996574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in language and speech technologies, no open-source system enables full speech-to-speech, multi-turn dialogue with integrated tool use and agentic reasoning. We introduce AURA (Agent for Understanding, Reasoning, and Automated Tool Use), the first open-source, speech-native assistant capable of completing complex, goal-driven tasks through dynamic tool invocation and multi-turn conversation. AURA combines open-weight ASR, TTS, and LLMs in a cascaded pipeline and supports tools such as calendar booking, contact lookup, web search, and email. Its modular design allows easy integration of new tools using natural language prompts and action classes. On VoiceBench, AURA scores 92.75% on OpenBookQA-outperforming all open-weight systems and nearing GPT-4o-and 4.39 on AlpacaEval, competitive with other open-weight systems. Human evaluation shows 90% task success on complex, multi-turn speech tasks.
- Abstract(参考訳): 言語と音声技術の進歩にもかかわらず、オープンソースシステムでは、統合ツールの使用とエージェント推論による音声合成とマルチターン対話が可能である。
AURA(Agent for Understanding, Reasoning, and Automated Tool Use)は,動的ツール呼び出しとマルチターン会話を通じて,複雑な目標駆動タスクを完了可能な,オープンソースの音声ネイティブアシスタントである。
AURAは、オープンウェイトなASR、TS、LLMをカスケードパイプラインに統合し、カレンダ予約、コンタクトルックアップ、Web検索、Eメールなどのツールをサポートする。
モジュール設計により、自然言語プロンプトとアクションクラスを使用して、新しいツールを簡単に統合できる。
VoiceBenchでは、AURAはOpenBookQAで92.75%、AlpacaEvalでGPT-4oと4.39に近づき、他のオープンウェイトシステムと競合する。
人間の評価は、複雑なマルチターン音声タスクにおいて90%のタスク成功を示す。
関連論文リスト
- ESPnet-SpeechLM: An Open Speech Language Model Toolkit [98.4525334631522]
音声言語モデル(SpeechLMs)の開発を民主化するオープンツールキットであるESPnet-SpeechLMを提案する。
このツールキットは、音声処理タスクを普遍的な逐次モデリング問題としてフレーミングすることで標準化する。
ESPnet-SpeechLMを使用すると、ユーザーはタスクテンプレートを簡単に定義し、キー設定を設定することができ、シームレスで合理化されたSpeechLM開発が可能になる。
論文 参考訳(メタデータ) (2025-02-21T05:21:58Z) - Controllable and Reliable Knowledge-Intensive Task-Oriented Conversational Agents with Declarative Genie Worksheets [9.062774302155043]
我々は、タスク指向の会話エージェントを作成するためのフレームワークGenieを紹介する。
高度な対話状態管理を通じて、信頼性の高い地上応答を提供する。
Genieで構築されたエージェントは、複雑な論理対話データセット上でSOTAメソッドより優れている。
論文 参考訳(メタデータ) (2024-07-08T07:17:40Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Multimodal Transformer with Pointer Network for the DSTC8 AVSD Challenge [48.905496060794114]
第8回対話システム技術チャレンジのAVSDトラックへの提出について述べる。
入力ビデオのテキスト機能と非テキスト機能を組み合わせるために,ドット商品の注意を取り入れた。
自動測定では高い性能を達成し, 人的評価では5位, 6位となった。
論文 参考訳(メタデータ) (2020-02-25T06:41:07Z) - Multipurpose Intelligent Process Automation via Conversational Assistant [3.808063547958558]
Intelligent Process Automation (IPA) は,反復的,ルーチン的,低認知的なタスクの処理によって知識労働者を支援することを目的とした,新興技術である。
我々は、実世界の産業環境でIPA対話アシスタントを実装するという課題に、構造化されたトレーニングデータの不足を伴って取り組む。
提案システムには2つの大きなメリットがある。第一に、反復的かつ時間のかかるアクティビティを削減し、従って、労働者がよりインテリジェントなプロセスに集中できるようにする。
論文 参考訳(メタデータ) (2020-01-07T21:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。