論文の概要: Hallucination Level of Artificial Intelligence Whisperer: Case Speech Recognizing Pantterinousut Rap Song
- arxiv url: http://arxiv.org/abs/2506.16174v2
- Date: Mon, 23 Jun 2025 04:25:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.145852
- Title: Hallucination Level of Artificial Intelligence Whisperer: Case Speech Recognizing Pantterinousut Rap Song
- Title(参考訳): 人工知能Whispererの幻覚レベル:パンタルーサット・ラップ・ソングのケース・スピーチ
- Authors: Ismo Horppu, Frederick Ayala, Erlin Gulbenkoglu,
- Abstract要約: 私たちは、フィンランドのラップ曲をテキストに翻訳する、楽しいが難しい試みにAIを投入しています。
フィンランドのラップ歌詞は、主人公の弟であるマクティモが書いたものである。
歌詞の書き起こしは、シンティカ・ヤンヌ(Syntikka Janne)のシンセサイザー音楽プレーヤーを強姦しているため、難しいだろう。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All languages are peculiar. Some of them are considered more challenging to understand than others. The Finnish Language is known to be a complex language. Also, when languages are used by artists, the pronunciation and meaning might be more tricky to understand. Therefore, we are putting AI to a fun, yet challenging trial: translating a Finnish rap song to text. We will compare the Faster Whisperer algorithm and YouTube's internal speech-to-text functionality. The reference truth will be Finnish rap lyrics, which the main author's little brother, Mc Timo, has written. Transcribing the lyrics will be challenging because the artist raps over synth music player by Syntikka Janne. The hallucination level and mishearing of AI speech-to-text extractions will be measured by comparing errors made against the original Finnish lyrics. The error function is informal but still works for our case.
- Abstract(参考訳): 全ての言語は特異である。
そのうちのいくつかは、他のものよりも理解するのが難しいと考えられている。
フィンランド語は複雑な言語として知られている。
また、アーティストが言語を使う場合、発音と意味を理解するのがより難しいかもしれない。
そのため、私たちは、フィンランドのラップ曲をテキストに翻訳する、楽しい、そして難しい試みにAIを投入しています。
我々は、Faster WhispererアルゴリズムとYouTubeの内部音声テキスト機能を比較する。
フィンランドのラップ歌詞は、主人公の弟であるマクティモが書いたものである。
歌詞の書き起こしは、シンティカ・ヤンヌ(Syntikka Janne)のシンセサイザー音楽プレーヤーを強姦しているため、難しいだろう。
フィンランドの歌詞に対する誤りを比較することで、幻覚レベルとAI音声からテキストへの抽出の誤聴を測定する。
エラー関数は非公式だが、私たちの場合はまだ有効である。
関連論文リスト
- REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
本稿では,旋律に沿った歌詞を編集・生成する最初のフレームワークであるREFFLYを紹介する。
合成したメロディ対応歌詞データセットを用いて歌詞修正モジュールを訓練する。
そこで本研究では,意味的意味と音楽的一貫性の両立を目的とした学習自由度を提案する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - Sudowoodo: a Chinese Lyric Imitation System with Source Lyrics [10.99860269567001]
原文の歌詞に基づいて新しい歌詞を生成することができる中国語の歌詞模倣システムであるtextbftextitSudowoodoを紹介した。
推論過程において,生成した歌詞をフィルタ・ランク付けし,高品質な歌詞を選択するために,後処理モジュールを利用する。
人間の評価結果は,我々のフレームワークがより優れた歌詞の模倣を行うことができることを示している。
論文 参考訳(メタデータ) (2023-08-09T02:12:04Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-04-07T09:15:46Z) - Weird AI Yankovic: Generating Parody Lyrics [9.683269364766426]
XLNetと後方テキスト生成を併用した特殊なサンプリング手法がパロディの歌詞を生成する方法を示す。
本研究は,ニューラル・リリック・パロディ生成の社会的意味を結論づける。
論文 参考訳(メタデータ) (2020-09-25T13:56:20Z) - Rapformer: Conditional Rap Lyrics Generation with Denoising Autoencoders [14.479052867589417]
テキストの内容(ニュース記事など)に基づいてラップ詩を合成する手法を開発する。
我々の手法はRapformerと呼ばれ、トランスフォーマーをベースとしたデノナイズ・オートエンコーダをトレーニングし、歌詞から抽出した内容語からラップ歌詞を再構成する。
Rapformerは、コンテンツ保存とスタイル転送の間に良いトレードオフをもたらす技術に精通した詩を生成することができる。
論文 参考訳(メタデータ) (2020-04-08T12:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。