Fugu-MT 論文翻訳(概要): An Artificial Intelligence Browser Architecture (AIBA) For Our Kind and Others: A Voice Name System Speech implementation with two warrants, Wake Neutrality and Value Preservation of Privately Identifiable Information

論文の概要: An Artificial Intelligence Browser Architecture (AIBA) For Our Kind and Others: A Voice Name System Speech implementation with two warrants, Wake Neutrality and Value Preservation of Privately Identifiable Information

arxiv url: http://arxiv.org/abs/2203.16497v1
Date: Tue, 29 Mar 2022 11:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-01 07:41:32.140226
Title: An Artificial Intelligence Browser Architecture (AIBA) For Our Kind and Others: A Voice Name System Speech implementation with two warrants, Wake Neutrality and Value Preservation of Privately Identifiable Information
Title（参考訳）: 本種等のための人工知能ブラウザアーキテクチャ(aiba)--ウェイク中立性と個人識別情報の保存-
Authors: Brian Subirana
Abstract要約: 会話型コマースは、環境と対話するタイミングを決定する、常時オンの人工知能システムに基づく5月の最初のアプリケーションである。現在の支配的なシステムは、ウェイク中立性のないクローズドガーデンソリューションであり、IRBやCohues型の制約のため、それらが持つPIIデータを完全に活用することはできない。本稿では,これら2つの制限に対処するための音声ブラウザ・サーバアーキテクチャを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conversational commerce, first pioneered by Apple's Siri, is the first of may applications based on always-on artificial intelligence systems that decide on its own when to interact with the environment, potentially collecting 24x7 longitudinal training data that is often Privately Identifiable Information (PII). A large body of scholarly papers, on the order of a million according to a simple Google Scholar search, suggests that the treatment of many health conditions, including COVID-19 and dementia, can be vastly improved by this data if the dataset is large enough as it has happened in other domains (e.g. GPT3). In contrast, current dominant systems are closed garden solutions without wake neutrality and that can't fully exploit the PII data they have because of IRB and Cohues-type constraints. We present a voice browser-and-server architecture that aims to address these two limitations by offering wake neutrality and the possibility to handle PII aiming to maximize its value. We have implemented this browser for the collection of speech samples and have successfully demonstrated it can capture over 200.000 samples of COVID-19 coughs. The architecture we propose is designed so it can grow beyond our kind into other domains such as collecting sound samples from vehicles, video images from nature, ingestible robotics, multi-modal signals (EEG, EKG,...), or even interacting with other kinds such as dogs and cats.
Abstract（参考訳）: appleのsiriが最初に開拓した会話型コマースは、5月最初のアプリケーションで、常時オンの人工知能システムに基づいて環境と対話する時間を決め、しばしばプライベートに識別可能な情報(pii)である24x7の縦断トレーニングデータを収集する。 Google Scholarの単純な検索によると、学術論文の膨大な部分は100万のオーダーで、他のドメインで発生したようなデータセットが十分に大きい場合(GPT3など)、COVID-19や認知症を含む多くの健康状態の治療は、このデータによって大幅に改善される可能性があることを示唆している。対照的に、現在の支配的なシステムは、ウェイク中立性のないクローズドガーデンソリューションであり、irbとcohuesタイプの制約のためにpiiデータを十分に活用できない。我々は,この2つの制約に対処すべく,ウェイク中立性を提供し,その価値を最大化しようとするpiiに対応可能な音声ブラウザとサーバアーキテクチャを提案する。我々は、このブラウザを音声サンプルの収集のために実装し、20万件以上のCOVID-19コークスのサンプルをキャプチャできることを示した。提案するアーキテクチャは,車からの音声サンプルの収集,自然からの映像の収集,摂取可能なロボット工学,マルチモーダル信号(EEG,EKG,...),さらには犬や猫などとの対話など,私たちの領域を超えて成長するように設計されている。

関連論文リスト

A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。 Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文参考訳（メタデータ） (2025-03-26T05:56:46Z)
ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems [57.806797579986075]
本稿では,各種ケースドおよびE2E音声対話システムのための統一Webインターフェースを構築するための,オープンソースのユーザフレンドリなツールキットを提案する。評価指標を用いて,音声対話システムおよびE2E音声対話システムと人間の会話データセットをプロキシとして比較した。我々の分析は、このツールキットが研究者に、異なる技術の比較と対比を行なわせることを実証している。
論文参考訳（メタデータ） (2025-03-11T15:24:02Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [65.23793829741014]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。 Embodied-RAGがRAGをロボット領域に効果的にブリッジし、200以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文参考訳（メタデータ） (2024-09-26T21:44:11Z)
MindSpeech: Continuous Imagined Speech Decoding using High-Density fNIRS and Prompt Tuning for Advanced Human-AI Interaction [0.0]
本稿では,脳とAIの直接インターフェースを開発することによって,人間とAIのインタラクションを実現する新しい手法を提案する。我々はMindSpeechと呼ばれる新しいAIモデルについて論じる。 4名中3名に対してBLEU-1,BERT Pスコアなどの指標を有意に改善した。
論文参考訳（メタデータ） (2024-07-25T16:39:21Z)
Consent in Crisis: The Rapid Decline of the AI Data Commons [74.68176012363253]
汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
論文参考訳（メタデータ） (2024-07-20T16:50:18Z)
Agent AI: Surveying the Horizons of Multimodal Interaction [83.18367129924997]
エージェントAI(Agent AI)とは、視覚刺激や言語入力、その他の環境データを知覚できる対話型システムである。我々は,バーチャルリアリティやシミュレートされたシーンを容易に作成し,仮想環境内に具体化されたエージェントと対話できる未来を構想する。
論文参考訳（メタデータ） (2024-01-07T19:11:18Z)
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文参考訳（メタデータ） (2022-06-14T17:09:35Z)
A Machine Learning-based Approach to Detect Threats in Bio-Cyber DNA Storage Systems [20.27498894606937]
我々は,生物工学的細菌を用いて,DNAにコード化されていたデータの保存と検索を行う自動アーカイブアーキテクチャを提案する。これらの生物学的メディアと古典的メディアの類似性は、悪意ある当事者が以前のアーカイブシステムに対する伝統的な攻撃を複製する可能性があるため、欠点となる可能性がある。本稿では、まず、ストレージシステムの主な特徴と、その上で実行できる様々な種類の攻撃について分析する。そして、現在進行中の攻撃を特定することを目的として、従来のメトリクスや機械学習アルゴリズムに依存する検出手法を提案し、評価する。
論文参考訳（メタデータ） (2020-09-28T14:55:20Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)
Unsupervised Learning of Audio Perception for Robotics Applications: Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文参考訳（メタデータ） (2020-02-10T20:33:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。