論文の概要: Estuary: A Framework For Building Multimodal Low-Latency Real-Time Socially Interactive Agents
- arxiv url: http://arxiv.org/abs/2410.20116v1
- Date: Sat, 26 Oct 2024 08:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:33.582573
- Title: Estuary: A Framework For Building Multimodal Low-Latency Real-Time Socially Interactive Agents
- Title(参考訳): Estuary:マルチモーダル低レイテンシリアルタイムソーシャルインタラクティブエージェント構築フレームワーク
- Authors: Spencer Lin, Basem Rizk, Miru Jun, Andy Artze, Caitlin Sullivan, Sharon Mozgai, Scott Fisher,
- Abstract要約: Estuaryは、低レイテンシでリアルタイムなSocially Interactive Agentsを開発するためのフレームワークである。
設定性、制御性、研究の速度、エージェント応答時間のスピードを最大化するために、完全にオフクラウドで実行できる。
- 参考スコア(独自算出の注目度): 0.4711628883579317
- License:
- Abstract: The rise in capability and ubiquity of generative artificial intelligence (AI) technologies has enabled its application to the field of Socially Interactive Agents (SIAs). Despite rising interest in modern AI-powered components used for real-time SIA research, substantial friction remains due to the absence of a standardized and universal SIA framework. To target this absence, we developed Estuary: a multimodal (text, audio, and soon video) framework which facilitates the development of low-latency, real-time SIAs. Estuary seeks to reduce repeat work between studies and to provide a flexible platform that can be run entirely off-cloud to maximize configurability, controllability, reproducibility of studies, and speed of agent response times. We are able to do this by constructing a robust multimodal framework which incorporates current and future components seamlessly into a modular and interoperable architecture.
- Abstract(参考訳): 生成人工知能(AI)技術の能力とユビキタス化により、社会対話エージェント(SIAs)分野への応用が可能になった。
リアルタイムSIA研究に使用される現代のAI駆動コンポーネントへの関心は高まっているが、標準化された普遍的なSIAフレームワークが存在しないため、かなりの摩擦が残っている。
そこで我々は,低遅延リアルタイムSIAの開発を容易にするマルチモーダル(テキスト,音声,映像)フレームワークであるEstuaryを開発した。
Estuaryは、研究間の繰り返し作業の削減と、設定可能性、制御可能性、研究の再現性、エージェント応答時間の速さを最大化するために、完全にクラウド外で実行できる柔軟なプラットフォームの提供を目指している。
私たちは、現在のコンポーネントと将来のコンポーネントをシームレスにモジュールで相互運用可能なアーキテクチャに組み込む、堅牢なマルチモーダルフレームワークを構築することで、これを実現できます。
関連論文リスト
- Asynchronous Tool Usage for Real-Time Agents [61.3041983544042]
並列処理とリアルタイムツール利用が可能な非同期AIエージェントを導入する。
私たちの重要な貢献は、エージェントの実行とプロンプトのためのイベント駆動有限状態マシンアーキテクチャです。
この研究は、流体とマルチタスクの相互作用が可能なAIエージェントを作成するための概念的なフレームワークと実践的なツールの両方を提示している。
論文 参考訳(メタデータ) (2024-10-28T23:57:19Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - LVLM-Interpret: An Interpretability Tool for Large Vision-Language Models [50.259006481656094]
本稿では,大規模視覚言語モデルの内部メカニズムの理解を目的とした対話型アプリケーションを提案する。
このインタフェースは, 画像パッチの解釈可能性を高めるために設計されており, 応答の生成に有効である。
本稿では,一般的な大規模マルチモーダルモデルであるLLaVAにおける障害機構の理解に,アプリケーションがどのように役立つかのケーススタディを示す。
論文 参考訳(メタデータ) (2024-04-03T23:57:34Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。
我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文 参考訳(メタデータ) (2024-01-07T19:11:18Z) - Conceptual Framework for Autonomous Cognitive Entities [0.9285295512807729]
本稿では,認知アーキテクチャの新しいフレームワークである自律認知エンティティモデルを紹介する。
このモデルは、大規模言語モデル(LLM)やマルチモーダル生成モデル(MMM)など、最新の生成AI技術の能力を活用するように設計されている。
ACEフレームワークには、障害の処理とアクションの適応のためのメカニズムも組み込まれているため、自律エージェントの堅牢性と柔軟性が向上する。
論文 参考訳(メタデータ) (2023-10-03T15:53:55Z) - Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM
Agents [0.0]
本稿では,マルチエージェントシステムのパワーを活用した大規模言語モデル(LLM)の能力向上のための新しいフレームワークを提案する。
本フレームワークでは,複数の知的エージェントコンポーネントがそれぞれ特有な属性と役割を持つ協調環境を導入し,複雑なタスクをより効率的に効率的に処理する。
論文 参考訳(メタデータ) (2023-06-05T23:55:37Z) - Accelerating the Development of Multimodal, Integrative-AI Systems with
Platform for Situated Intelligence [1.595445991573573]
マルチモーダル統合AIシステムのためのオープンソースのフレームワークであるPlatform for Situated Intelligenceについて説明する。
本稿では,フレームワークとその主な可利用性について概説し,そのHRIへの影響について論じる。
論文 参考訳(メタデータ) (2020-10-12T23:53:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。