論文の概要: A Demand-Driven Perspective on Generative Audio AI
- arxiv url: http://arxiv.org/abs/2307.04292v1
- Date: Mon, 10 Jul 2023 00:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:31:11.608892
- Title: A Demand-Driven Perspective on Generative Audio AI
- Title(参考訳): ジェネレーティブオーディオAIの需要駆動的展望
- Authors: Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae
Chon
- Abstract要約: 本稿では,プロのオーディオ技術者による調査結果を紹介する。
本調査に基づく音質と可制御性に関する現状の課題を要約する。
- 参考スコア(独自算出の注目度): 1.0639605996067534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To achieve successful deployment of AI research, it is crucial to understand
the demands of the industry. In this paper, we present the results of a survey
conducted with professional audio engineers, in order to determine research
priorities and define various research tasks. We also summarize the current
challenges in audio quality and controllability based on the survey. Our
analysis emphasizes that the availability of datasets is currently the main
bottleneck for achieving high-quality audio generation. Finally, we suggest
potential solutions for some revealed issues with empirical evidence.
- Abstract(参考訳): AI研究の展開を成功させるためには、産業の要求を理解することが不可欠である。
本稿では,プロのオーディオ技術者が行った調査の結果について述べる。研究の優先順位を決定し,様々な研究課題を定めていく。
また,本調査に基づく音声品質と制御性に関する課題を概説する。
分析では、現在、データセットの可用性が高品質なオーディオ生成のボトルネックとなっていることを強調している。
最後に,実証的なエビデンスを持ついくつかの問題に対して,潜在的な解決策を提案する。
関連論文リスト
- A Comparative Study of Perceptual Quality Metrics for Audio-driven
Talking Head Videos [81.54357891748087]
4つの生成手法から生成した音声ヘッドビデオを収集する。
視覚的品質、口唇音の同期、頭部運動の自然性に関する制御された心理物理実験を行った。
実験では,モデル予測と人間のアノテーションの整合性を検証し,広く使用されている指標よりも人的意見に整合した指標を同定した。
論文 参考訳(メタデータ) (2024-03-11T04:13:38Z) - An experiment on an automated literature survey of data-driven speech
enhancement methods [5.931978628000179]
本研究は,データ駆動型音声強調法に関する116項目の文献調査を自動化するために,生成事前学習型トランスフォーマ(GPT)モデルの利用について検討する。
論文 参考訳(メタデータ) (2023-10-10T02:07:24Z) - A Survey on Interpretable Cross-modal Reasoning [64.37362731950843]
マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。
この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる
本調査では,I-CMRの3段階分類法について概説する。
論文 参考訳(メタデータ) (2023-09-05T05:06:48Z) - Improving the State of the Art for Training Human-AI Teams: Technical
Report #2 -- Results of Researcher Knowledge Elicitation Survey [0.0]
ソナリストは、人間-AIチームのトレーニングを探求する社内イニシアチブを開始した。
この取り組みの最初のステップは、人間-AIチームの研究を促進することができるSTE(Synthetic Task Environment)を開発することです。
論文 参考訳(メタデータ) (2023-08-29T13:54:32Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [51.42020333199243]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Scaling up Search Engine Audits: Practical Insights for Algorithm
Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。
複数のデータ収集にまたがる研究インフラの性能を実証する。
仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文 参考訳(メタデータ) (2021-06-10T15:49:58Z) - Artificial Intelligence for IT Operations (AIOPS) Workshop White Paper [50.25428141435537]
AIOps(Artificial Intelligence for IT Operations)は、マシンラーニング、ビッグデータ、ストリーミング分析、IT運用管理の交差点で発生する、新たな学際分野である。
AIOPSワークショップの主な目的は、アカデミアと産業界の両方の研究者が集まり、この分野での経験、成果、作業について発表することです。
論文 参考訳(メタデータ) (2021-01-15T10:43:10Z) - Questionnaire analysis to define the most suitable survey for port-noise
investigation [0.0]
本論文は, 主観的調査のために国際的に提案されたアンケートデータベースの一部として選択された, 特定の研究に適した質問のサンプルを分析した。
TRIPLOプロジェクト(TRansports and Innovative sustainable connection between Ports and LOGistic platform)に展開する。
論文 参考訳(メタデータ) (2020-07-14T08:52:55Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。