Fugu-MT 論文翻訳(概要): A Demand-Driven Perspective on Generative Audio AI

論文の概要: A Demand-Driven Perspective on Generative Audio AI

arxiv url: http://arxiv.org/abs/2307.04292v1
Date: Mon, 10 Jul 2023 00:58:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-11 14:31:11.608892
Title: A Demand-Driven Perspective on Generative Audio AI
Title（参考訳）: ジェネレーティブオーディオAIの需要駆動的展望
Authors: Sangshin Oh, Minsung Kang, Hyeongi Moon, Keunwoo Choi, Ben Sangbae Chon
Abstract要約: 本稿では,プロのオーディオ技術者による調査結果を紹介する。本調査に基づく音質と可制御性に関する現状の課題を要約する。
参考スコア（独自算出の注目度）: 1.0639605996067534
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: To achieve successful deployment of AI research, it is crucial to understand the demands of the industry. In this paper, we present the results of a survey conducted with professional audio engineers, in order to determine research priorities and define various research tasks. We also summarize the current challenges in audio quality and controllability based on the survey. Our analysis emphasizes that the availability of datasets is currently the main bottleneck for achieving high-quality audio generation. Finally, we suggest potential solutions for some revealed issues with empirical evidence.
Abstract（参考訳）: AI研究の展開を成功させるためには、産業の要求を理解することが不可欠である。本稿では,プロのオーディオ技術者が行った調査の結果について述べる。研究の優先順位を決定し,様々な研究課題を定めていく。また,本調査に基づく音声品質と制御性に関する課題を概説する。分析では、現在、データセットの可用性が高品質なオーディオ生成のボトルネックとなっていることを強調している。最後に,実証的なエビデンスを持ついくつかの問題に対して,潜在的な解決策を提案する。

関連論文リスト

ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry [22.615102398311432]
我々は、ディープAI研究システムの能力を評価することに焦点を当てた最初のベンチマークであるResearcherBenchを紹介する。現実の科学的シナリオから専門的に選択された65の質問のデータセットを収集した。 OpenAI Deep ResearchとGemini Deep Researchは、他のシステムよりも格段に優れており、オープンエンドのコンサルティングの質問では特に強みがある。
論文参考訳（メタデータ） (2025-07-22T06:51:26Z)
Methodological Foundations for AI-Driven Survey Question Generation [41.94295877935867]
本稿では,ジェネレーティブAIを教育調査に活用するための方法論的枠組みを提案する。大規模言語モデルが適応的でコンテキスト対応のサーベイ質問を生成する方法について検討する。偏見、プライバシー、透明性などの倫理的問題を考察する。
論文参考訳（メタデータ） (2025-05-02T09:50:34Z)
Summarizing Speech: A Comprehensive Survey [76.13011304983458]
音声の要約は、音声・音声コンテンツの増加量を効率的に管理し、アクセスするために欠かせないツールとなっている。本調査では,要約手法の質を評価する上で重要な,既存のデータセットと評価プロトコルについて検討する。
論文参考訳（メタデータ） (2025-04-10T17:50:53Z)
Beyond the Destination: A Novel Benchmark for Exploration-Aware Embodied Question Answering [87.76784654371312]
Embodied Question Answeringでは、エージェントが動的に3D環境を探索し、視覚情報を積極的に収集し、質問に答えるために多段階の推論を行う必要がある。既存のデータセットはしばしばバイアスや事前の知識を導入し、非身体的推論につながる。探索能力と推論能力の両方を評価するために特別に設計された最大のデータセットを構築します。
論文参考訳（メタデータ） (2025-03-14T06:29:47Z)
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。 3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文参考訳（メタデータ） (2024-12-18T06:43:06Z)
Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文参考訳（メタデータ） (2024-10-21T15:55:27Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
How Mature is Requirements Engineering for AI-based Systems? A Systematic Mapping Study on Practices, Challenges, and Future Research Directions [5.6818729232602205]
既存のREメソッドが十分かどうか、あるいはこれらの課題に対処するために新しいメソッドが必要であるかどうかは不明だ。既存のRE4AI研究は主に要件分析と導入に重点を置いており、ほとんどの実践はこれらの分野に適用されている。私たちは、最も一般的な課題として、要件仕様、説明可能性、マシンラーニングエンジニアとエンドユーザのギャップを特定しました。
論文参考訳（メタデータ） (2024-09-11T11:28:16Z)
Reconciling Methodological Paradigms: Employing Large Language Models as Novice Qualitative Research Assistants in Talent Management Research [1.0949553365997655]
本研究では,RAGに基づくLarge Language Models (LLMs) を用いた面接文の解析手法を提案する。この研究の斬新さは、初歩的な研究助手として機能するLSMによって強化された研究調査をストラテジー化することにある。以上の結果から, LLM拡張RAGアプローチは, 手動で生成したトピックと比較して, 興味のあるトピックを抽出できることが示唆された。
論文参考訳（メタデータ） (2024-08-20T17:49:51Z)
A Survey on Interpretable Cross-modal Reasoning [64.37362731950843]
マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる本調査では,I-CMRの3段階分類法について概説する。
論文参考訳（メタデータ） (2023-09-05T05:06:48Z)
Improving the State of the Art for Training Human-AI Teams: Technical Report #2 -- Results of Researcher Knowledge Elicitation Survey [0.0]
ソナリストは、人間-AIチームのトレーニングを探求する社内イニシアチブを開始した。この取り組みの最初のステップは、人間-AIチームの研究を促進することができるSTE(Synthetic Task Environment)を開発することです。
論文参考訳（メタデータ） (2023-08-29T13:54:32Z)
Learning to Answer Questions in Dynamic Audio-Visual Scenarios [81.19017026999218]
本稿では,視覚的物体の異なる音と映像の関連性に関する質問に答えることを目的としたAVQAタスクに着目した。我々のデータセットには、様々なモダリティと質問タイプにまたがる45万以上の質問応答ペアが含まれています。 A-SIC, V-SIC, AVQA のアプローチでは, AVQA は多感性知覚の恩恵を受けており, モデルでは近年の A-SIC, V-SIC, AVQA のアプローチよりも優れていた。
論文参考訳（メタデータ） (2022-03-26T13:03:42Z)
Scaling up Search Engine Audits: Practical Insights for Algorithm Auditing [68.8204255655161]
異なる地域に数百の仮想エージェントを配置した8つの検索エンジンの実験を行った。複数のデータ収集にまたがる研究インフラの性能を実証する。仮想エージェントは,アルゴリズムの性能を長時間にわたって監視するための,有望な場所である,と結論付けている。
論文参考訳（メタデータ） (2021-06-10T15:49:58Z)
Artificial Intelligence for IT Operations (AIOPS) Workshop White Paper [50.25428141435537]
AIOps(Artificial Intelligence for IT Operations)は、マシンラーニング、ビッグデータ、ストリーミング分析、IT運用管理の交差点で発生する、新たな学際分野である。 AIOPSワークショップの主な目的は、アカデミアと産業界の両方の研究者が集まり、この分野での経験、成果、作業について発表することです。
論文参考訳（メタデータ） (2021-01-15T10:43:10Z)
Questionnaire analysis to define the most suitable survey for port-noise investigation [0.0]
本論文は, 主観的調査のために国際的に提案されたアンケートデータベースの一部として選択された, 特定の研究に適した質問のサンプルを分析した。 TRIPLOプロジェクト(TRansports and Innovative sustainable connection between Ports and LOGistic platform)に展開する。
論文参考訳（メタデータ） (2020-07-14T08:52:55Z)
Exploration of Audio Quality Assessment and Anomaly Localisation Using Attention Models [37.60722440434528]
本稿では,双方向長期記憶とアテンション機構を併用し,音質評価のための新しいモデルを提案する。前者は、録音から情報を学ぶ人間の聴覚知覚能力を模倣することであり、後者は、対象の特徴を強調することによって、所望の信号から干渉を更に識別することである。提案手法を評価するため,様々な自然音を混合してTIMITデータセットを用いて拡張する。
論文参考訳（メタデータ） (2020-05-16T17:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。