Fugu-MT 論文翻訳(概要): CRNNs for Urban Sound Tagging with spatiotemporal context

論文の概要: CRNNs for Urban Sound Tagging with spatiotemporal context

arxiv url: http://arxiv.org/abs/2008.10413v2
Date: Wed, 30 Sep 2020 14:53:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 12:42:41.963052
Title: CRNNs for Urban Sound Tagging with spatiotemporal context
Title（参考訳）: 時空間を考慮した都市音聴取のためのCRNN
Authors: Augustin Arnault and Nicolas Riche
Abstract要約: 本稿では、私たちがTask 5 DCASE 2020チャレンジに参加していたCRNNについて述べる。コードはGitHubリポジトリでhttps://github.com/telai/urban-sound-tagging.comで公開されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper describes CRNNs we used to participate in Task 5 of the DCASE 2020 challenge. This task focuses on hierarchical multilabel urban sound tagging with spatiotemporal context. The code is available on our GitHub repository at https://github.com/multitel-ai/urban-sound-tagging.
Abstract（参考訳）: 本稿では,dcase 2020 課題のタスク5に参加した crnn について述べる。この課題は時空間を考慮した階層型マルチラベル都市音のタグ付けに焦点をあてる。コードはgithubリポジトリのhttps://github.com/multitel-ai/urban-sound-taggingで利用できます。

関連論文リスト

TimeChat-Captioner: Scripting Multi-Scene Videos with Time-Aware and Structural Audio-Visual Captions [64.27159505605312]
提案するOmni Captioningは,明示的なタイムスタンプによる連続的,きめ細かな,構造化された視覚的物語を生成するために設計された新しいタスクである。密接なセマンティックカバレッジを確保するため、私たちは6次元構造スキーマを導入し、"script-like"キャプションを作成します。大規模な実験により、TimeChat-Captioner-7BはGemini-2.5-Proを抜いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2026-02-09T14:21:58Z)
Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文参考訳（メタデータ） (2024-09-19T01:26:33Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Incivility in Open Source Projects: A Comprehensive Annotated Dataset of Locked GitHub Issue Threads [7.573469540668844]
本稿では、404のロック付きGitHubイシューディスカッションスレッドと5961の個別コメントのキュレートデータセットを提案する。 Tone Bearing Discussion Features (TBDFs) を用いた様々なイシビリティカテゴリーのコメントを注釈した。その結果,Btter frustration, Impatience, Mocking が最も多い TBDF が得られた。
論文参考訳（メタデータ） (2024-02-06T17:43:27Z)
Unsupervised Speech Recognition with N-Skipgram and Positional Unigram Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文参考訳（メタデータ） (2023-10-03T19:05:32Z)
AudioInceptionNeXt: TCL AI LAB Submission to EPIC-SOUND Audio-Based-Interaction-Recognition Challenge 2023 [5.0169092839789275]
本稿では,2023年のEpic-Kitchen EPIC-SOUNDS Audio-Based Interaction Recognition Challengeへの参加について述べる。課題は、音声サンプルから対応するアクションラベルへのマッピングを学習することである。我々のアプローチは、挑戦テストセットで55.43%の正確さを達成し、公衆のリーダーボードで1位にランクインした。
論文参考訳（メタデータ） (2023-07-14T10:39:05Z)
A request for clarity over the End of Sequence token in the Self-Critical Sequence Training [69.3939291118954]
本研究は,問題自体の認識を広げることによって問題を解決することを提案する。特に、私たちは、SacreEOSというライブラリの助けを借りて、シンプルで情報的な署名を共有するために、将来的なワークスを招待します。
論文参考訳（メタデータ） (2023-05-20T18:01:47Z)
Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文参考訳（メタデータ） (2022-03-01T05:02:02Z)
The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System Description [1.3687617973585977]
教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。 5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。
論文参考訳（メタデータ） (2021-09-05T12:10:26Z)
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation [49.41766997393417]
本報告では, 音響シーン・イベントの検出・分類に関わるシステムについて述べる。本論文は,音声の自動字幕化における2つの不確定性,すなわち,単語選択不確定性と文長不確定性に焦点をあてる。マルチタスク学習によりキーワードと文長を推定することにより,主字幕生成と部分不確定化を同時に解決する。
論文参考訳（メタデータ） (2020-07-01T04:26:27Z)
Speaker-change Aware CRF for Dialogue Act Classification [0.0]
ダイアログ法(DA)の分類における最近の研究は、シーケンスラベリング問題としてタスクにアプローチしている。本稿では,話者変化を考慮したCRF層の簡易な修正を提案する。
論文参考訳（メタデータ） (2020-04-06T18:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。