論文の概要: A Demand-Driven Perspective on Generative Audio AI
- arxiv url: http://arxiv.org/abs/2307.04292v1
- Date: Mon, 10 Jul 2023 00:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 14:31:11.608892
- Title: A Demand-Driven Perspective on Generative Audio AI
- Title(参考訳): ジェネレーティブオーディオAIの需要駆動的展望
- Authors: Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae
Chon
- Abstract要約: 本稿では,プロのオーディオ技術者による調査結果を紹介する。
本調査に基づく音質と可制御性に関する現状の課題を要約する。
- 参考スコア(独自算出の注目度): 1.0639605996067534
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To achieve successful deployment of AI research, it is crucial to understand
the demands of the industry. In this paper, we present the results of a survey
conducted with professional audio engineers, in order to determine research
priorities and define various research tasks. We also summarize the current
challenges in audio quality and controllability based on the survey. Our
analysis emphasizes that the availability of datasets is currently the main
bottleneck for achieving high-quality audio generation. Finally, we suggest
potential solutions for some revealed issues with empirical evidence.
- Abstract(参考訳): AI研究の展開を成功させるためには、産業の要求を理解することが不可欠である。
本稿では,プロのオーディオ技術者が行った調査の結果について述べる。研究の優先順位を決定し,様々な研究課題を定めていく。
また,本調査に基づく音声品質と制御性に関する課題を概説する。
分析では、現在、データセットの可用性が高品質なオーディオ生成のボトルネックとなっていることを強調している。
最後に,実証的なエビデンスを持ついくつかの問題に対して,潜在的な解決策を提案する。
関連論文リスト
- Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - How Mature is Requirements Engineering for AI-based Systems? A Systematic Mapping Study on Practices, Challenges, and Future Research Directions [5.6818729232602205]
既存のREメソッドが十分かどうか、あるいはこれらの課題に対処するために新しいメソッドが必要であるかどうかは不明だ。
既存のRE4AI研究は主に要件分析と導入に重点を置いており、ほとんどの実践はこれらの分野に適用されている。
私たちは、最も一般的な課題として、要件仕様、説明可能性、マシンラーニングエンジニアとエンドユーザのギャップを特定しました。
論文 参考訳(メタデータ) (2024-09-11T11:28:16Z) - Reconciling Methodological Paradigms: Employing Large Language Models as Novice Qualitative Research Assistants in Talent Management Research [1.0949553365997655]
本研究では,RAGに基づくLarge Language Models (LLMs) を用いた面接文の解析手法を提案する。
この研究の斬新さは、初歩的な研究助手として機能するLSMによって強化された研究調査をストラテジー化することにある。
以上の結果から, LLM拡張RAGアプローチは, 手動で生成したトピックと比較して, 興味のあるトピックを抽出できることが示唆された。
論文 参考訳(メタデータ) (2024-08-20T17:49:51Z) - A Survey on Interpretable Cross-modal Reasoning [64.37362731950843]
マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。
この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる
本調査では,I-CMRの3段階分類法について概説する。
論文 参考訳(メタデータ) (2023-09-05T05:06:48Z) - Improving the State of the Art for Training Human-AI Teams: Technical
Report #2 -- Results of Researcher Knowledge Elicitation Survey [0.0]
ソナリストは、人間-AIチームのトレーニングを探求する社内イニシアチブを開始した。
この取り組みの最初のステップは、人間-AIチームの研究を促進することができるSTE(Synthetic Task Environment)を開発することです。
論文 参考訳(メタデータ) (2023-08-29T13:54:32Z) - Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。
我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。
A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2022-03-26T13:03:42Z) - Scaling up Search Engine Audits: Practical Insights for Algorithm
Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。
複数のデータ収集にまたがる研究インフラの性能を実証する。
仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文 参考訳(メタデータ) (2021-06-10T15:49:58Z) - Artificial Intelligence for IT Operations (AIOPS) Workshop White Paper [50.25428141435537]
AIOps(Artificial Intelligence for IT Operations)は、マシンラーニング、ビッグデータ、ストリーミング分析、IT運用管理の交差点で発生する、新たな学際分野である。
AIOPSワークショップの主な目的は、アカデミアと産業界の両方の研究者が集まり、この分野での経験、成果、作業について発表することです。
論文 参考訳(メタデータ) (2021-01-15T10:43:10Z) - Questionnaire analysis to define the most suitable survey for port-noise
investigation [0.0]
本論文は, 主観的調査のために国際的に提案されたアンケートデータベースの一部として選択された, 特定の研究に適した質問のサンプルを分析した。
TRIPLOプロジェクト(TRansports and Innovative sustainable connection between Ports and LOGistic platform)に展開する。
論文 参考訳(メタデータ) (2020-07-14T08:52:55Z) - Exploration of Audio Quality Assessment and Anomaly Localisation Using
Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。
前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。
提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文 参考訳(メタデータ) (2020-05-16T17:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。