論文の概要: OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents
- arxiv url: http://arxiv.org/abs/2408.03047v2
- Date: Sun, 17 Nov 2024 02:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:45.899596
- Title: OpenOmni: A Collaborative Open Source Tool for Building Future-Ready Multimodal Conversational Agents
- Title(参考訳): OpenOmni: 未来のマルチモーダル対話エージェントを構築するためのコラボレーション型オープンソースツール
- Authors: Qiang Sun, Yuanyi Luo, Sirui Li, Wenxiao Zhang, Wei Liu,
- Abstract要約: Open Omniはオープンソースのエンドツーエンドパイプラインベンチマークツールである。
音声テキスト、感情検出、検索拡張生成、大規模言語モデルなどの高度な技術を統合している。
ローカルとクラウドのデプロイメントをサポートし、データのプライバシを確保し、レイテンシと精度のベンチマークをサポートする。
- 参考スコア(独自算出の注目度): 11.928422245125985
- License:
- Abstract: Multimodal conversational agents are highly desirable because they offer natural and human-like interaction. However, there is a lack of comprehensive end-to-end solutions to support collaborative development and benchmarking. While proprietary systems like GPT-4o and Gemini demonstrating impressive integration of audio, video, and text with response times of 200-250ms, challenges remain in balancing latency, accuracy, cost, and data privacy. To better understand and quantify these issues, we developed OpenOmni, an open-source, end-to-end pipeline benchmarking tool that integrates advanced technologies such as Speech-to-Text, Emotion Detection, Retrieval Augmented Generation, Large Language Models, along with the ability to integrate customized models. OpenOmni supports local and cloud deployment, ensuring data privacy and supporting latency and accuracy benchmarking. This flexible framework allows researchers to customize the pipeline, focusing on real bottlenecks and facilitating rapid proof-of-concept development. OpenOmni can significantly enhance applications like indoor assistance for visually impaired individuals, advancing human-computer interaction. Our demonstration video is available https://www.youtube.com/watch?v=zaSiT3clWqY, demo is available via https://openomni.ai4wa.com, code is available via https://github.com/AI4WA/OpenOmniFramework.
- Abstract(参考訳): マルチモーダルな会話エージェントは、自然と人間のような相互作用を提供するため、非常に望ましい。
しかし、協調開発とベンチマークをサポートする包括的なエンドツーエンドソリューションがない。
GPT-4oやGeminiのようなプロプライエタリなシステムは、200~250msの応答時間を持つオーディオ、ビデオ、テキストの素晴らしい統合を実証していますが、レイテンシ、正確性、コスト、データのプライバシのバランスには依然として課題があります。
これらの問題をより深く理解し、定量化するために、我々はOpenOmniを開発した。OpenOmniはオープンソースのエンドツーエンドのパイプラインベンチマークツールで、音声テキスト、感情検出、検索拡張生成、大規模言語モデルなどの高度な技術を統合し、カスタマイズされたモデルを統合することができる。
OpenOmniは、ローカルおよびクラウドデプロイメントをサポートし、データのプライバシを確保し、レイテンシと精度ベンチマークをサポートする。
この柔軟なフレームワークは、研究者がパイプラインをカスタマイズし、実際のボトルネックに集中し、概念実証の迅速な開発を容易にする。
OpenOmniは視覚障害者の屋内支援、人間とコンピュータの相互作用の促進など、アプリケーションを大幅に強化することができる。
デモビデオはhttps://www.youtube.com/watch?
v=zaSiT3clWqY、デモはhttps://openomni.ai4wa.comで、コードはhttps://github.com/AI4WA/OpenOmniFrameworkで入手できる。
関連論文リスト
- CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR [31.49021749468963]
大言語モデル (LLM) は音声テキスト (STT) とテキスト音声 (TTS) モデルを備えた非プレーヤ文字 (NPC) を用いており、XR のより自然な対話型ユーザインタフェース (CUI) を促進するために、従来の NPC やプレスクリプトの NPC よりも大きな利点をもたらす。
我々はコミュニティに対して,様々なLLM, STT, TTSモデルとの音声ベースのNPCユーザインタラクションを容易にする,オープンソースでカスタマイズ可能な,プライバシ対応の Unity パッケージ CUIfy を提供する。
論文 参考訳(メタデータ) (2024-11-07T12:55:17Z) - Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities [0.0]
Mini-Omni2はヴィソインとオーディオクエリにリアルタイム、エンドツーエンドの音声応答を提供するビジュアルオーディオアシスタントである。
限られたデータセットでトレーニングした後、言語モデルでマルチモーダル入力と出力を処理できる3段階のトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2024-10-15T02:10:45Z) - OpenHands: An Open Platform for AI Software Developers as Generalist Agents [109.8507367518992]
私たちは、人間の開発者と同じような方法で世界と対話するAIエージェントを開発するためのプラットフォームであるOpenHandsを紹介します。
プラットフォームが新しいエージェントの実装を可能にし、コード実行のためのサンドボックス環境との安全なインタラクション、評価ベンチマークの導入について説明する。
論文 参考訳(メタデータ) (2024-07-23T17:50:43Z) - MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation [36.50320728984937]
我々はMeMemoを紹介した。MeMemoは最先端に近い近接検索技術であるHNSWをブラウザ環境に適用する最初のオープンソースのJavaScriptツールキットである。
MeMemoは、プライベートでパーソナライズされたコンテンツ作成やインタラクティブなプロトタイピングなど、エキサイティングな新しいデザインと研究の機会を提供する。
論文 参考訳(メタデータ) (2024-07-02T06:08:55Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Enhancing Chat Language Models by Scaling High-quality Instructional
Conversations [91.98516412612739]
まず,UltraChatという,体系的に設計され,多様で,情報的,大規模な会話データセットを提供する。
我々の目標は、人間がAIアシスタントで持つであろう対話の幅を捉えることです。
我々はLLaMAモデルを微調整し、強力な対話モデルであるUltraLLaMAを作成する。
論文 参考訳(メタデータ) (2023-05-23T16:49:14Z) - GLM-Dialog: Noise-tolerant Pre-training for Knowledge-grounded Dialogue
Generation [21.91914619107555]
GLM-Dialogは、中国語で知識に基づく会話ができる10Bパラメータを持つ大規模言語モデル(LLM)である。
我々は,オープンソースモデルと信頼性のある対話評価システムの開発を促進するために,評価プラットフォームをオンラインで提供します。
論文 参考訳(メタデータ) (2023-02-28T08:35:28Z) - ADVISER: A Toolkit for Developing Multi-modal, Multi-domain and
Socially-engaged Conversational Agents [27.222054181839095]
ADVISERはオープンソースのマルチドメインダイアログシステムツールキットである。
マルチモーダル(音声、テキスト、視覚を含む)会話エージェントの開発を可能にする。
ツールキットの最終的なPythonベースの実装は、柔軟で、使いやすく、拡張が容易です。
論文 参考訳(メタデータ) (2020-05-04T18:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。