論文の概要: Hallucination Level of Artificial Intelligence Whisperer: Case Speech Recognizing Pantterinousut Rap Song
- arxiv url: http://arxiv.org/abs/2506.16174v2
- Date: Mon, 23 Jun 2025 04:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.145852
- Title: Hallucination Level of Artificial Intelligence Whisperer: Case Speech Recognizing Pantterinousut Rap Song
- Title(参考訳): 人工知能Whispererの幻覚レベル:パンタルーサット・ラップ・ソングのケース・スピーチ
- Authors: Ismo Horppu, Frederick Ayala, Erlin Gulbenkoglu,
- Abstract要約: 私たちは、フィンランドのラップ曲をテキストに翻訳する、楽しいが難しい試みにAIを投入しています。
フィンランドのラップ歌詞は、主人公の弟であるマクティモが書いたものである。
歌詞の書き起こしは、シンティカ・ヤンヌ(Syntikka Janne)のシンセサイザー音楽プレーヤーを強姦しているため、難しいだろう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All languages are peculiar. Some of them are considered more challenging to understand than others. The Finnish Language is known to be a complex language. Also, when languages are used by artists, the pronunciation and meaning might be more tricky to understand. Therefore, we are putting AI to a fun, yet challenging trial: translating a Finnish rap song to text. We will compare the Faster Whisperer algorithm and YouTube's internal speech-to-text functionality. The reference truth will be Finnish rap lyrics, which the main author's little brother, Mc Timo, has written. Transcribing the lyrics will be challenging because the artist raps over synth music player by Syntikka Janne. The hallucination level and mishearing of AI speech-to-text extractions will be measured by comparing errors made against the original Finnish lyrics. The error function is informal but still works for our case.
- Abstract(参考訳): 全ての言語は特異である。
そのうちのいくつかは、他のものよりも理解するのが難しいと考えられている。
フィンランド語は複雑な言語として知られている。
また、アーティストが言語を使う場合、発音と意味を理解するのがより難しいかもしれない。
そのため、私たちは、フィンランドのラップ曲をテキストに翻訳する、楽しい、そして難しい試みにAIを投入しています。
我々は、Faster WhispererアルゴリズムとYouTubeの内部音声テキスト機能を比較する。
フィンランドのラップ歌詞は、主人公の弟であるマクティモが書いたものである。
歌詞の書き起こしは、シンティカ・ヤンヌ(Syntikka Janne)のシンセサイザー音楽プレーヤーを強姦しているため、難しいだろう。
フィンランドの歌詞に対する誤りを比較することで、幻覚レベルとAI音声からテキストへの抽出の誤聴を測定する。
エラー関数は非公式だが、私たちの場合はまだ有効である。
関連論文リスト
- REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
本稿では,旋律に沿った歌詞を編集・生成する最初のフレームワークであるREFFLYを紹介する。
合成したメロディ対応歌詞データセットを用いて歌詞修正モジュールを訓練する。
そこで本研究では,意味的意味と音楽的一貫性の両立を目的とした学習自由度を提案する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Rapformer: Conditional Rap Lyrics Generation with Denoising Autoencoders [14.479052867589417]
テキストの内容(ニュース記事など)に基づいてラップ詩を合成する手法を開発する。
我々の手法はRapformerと呼ばれ、トランスフォーマーをベースとしたデノナイズ・オートエンコーダをトレーニングし、歌詞から抽出した内容語からラップ歌詞を再構成する。
Rapformerは、コンテンツ保存とスタイル転送の間に良いトレードオフをもたらす技術に精通した詩を生成することができる。
論文 参考訳(メタデータ) (2020-04-08T12:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。