論文の概要: Beyond Film Subtitles: Is YouTube the Best Approximation of Spoken Vocabulary?
- arxiv url: http://arxiv.org/abs/2410.03240v1
- Date: Fri, 4 Oct 2024 09:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 23:28:42.585628
- Title: Beyond Film Subtitles: Is YouTube the Best Approximation of Spoken Vocabulary?
- Title(参考訳): 映画の字幕を超えて:YouTubeは音声語彙の最適な近似か?
- Authors: Adam Nohejl, Frederikus Hudi, Eunike Andriani Kardinata, Shintaro Ozaki, Maria Angelica Riera Machin, Hongyu Sun, Justin Vasselli, Taro Watanabe,
- Abstract要約: 我々は、慎重に処理されたYouTube字幕から抽出された周波数が、現在利用可能な最も優れたリソースに匹敵する近似を提供することを示した。
我々は,中国語,英語,インドネシア語,日本語,スペイン語の5つの多言語に対して,YouTube字幕を用いて周波数ノルムを構築し,語彙決定時間,単語親和性,語彙複雑性との相関性を評価する。
2つの心理言語学変数と強く相関するのに加えて、新しい周波数に対する単純な線形回帰は、英語と日本語の語彙的複雑性予測タスクにおいて、新しい高いスコアを達成する。
- 参考スコア(独自算出の注目度): 10.939144744452701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word frequency is a key variable in psycholinguistics, useful for modeling human familiarity with words even in the era of large language models (LLMs). Frequency in film subtitles has proved to be a particularly good approximation of everyday language exposure. For many languages, however, film subtitles are not easily available, or are overwhelmingly translated from English. We demonstrate that frequencies extracted from carefully processed YouTube subtitles provide an approximation comparable to, and often better than, the best currently available resources. Moreover, they are available for languages for which a high-quality subtitle or speech corpus does not exist. We use YouTube subtitles to construct frequency norms for five diverse languages, Chinese, English, Indonesian, Japanese, and Spanish, and evaluate their correlation with lexical decision time, word familiarity, and lexical complexity. In addition to being strongly correlated with two psycholinguistic variables, a simple linear regression on the new frequencies achieves a new high score on a lexical complexity prediction task in English and Japanese, surpassing both models trained on film subtitle frequencies and the LLM GPT-4. Our code, the frequency lists, fastText word embeddings, and statistical language models are freely available at https://github.com/naist-nlp/tubelex.
- Abstract(参考訳): 単語頻度は、心理言語学において重要な変数であり、大きな言語モデル(LLM)の時代でさえ、単語と人間の親しみをモデル化するのに有用である。
映画の字幕の頻度は、日常的な言語露出の特に良い近似であることが証明されている。
しかし、多くの言語では、映画の字幕は簡単には入手できないか、英語から圧倒的に翻訳されている。
我々は、慎重に処理されたYouTube字幕から抽出された周波数が、現在利用可能な最も優れたリソースに匹敵する近似を提供することを示した。
さらに、高品質な字幕や音声コーパスが存在しない言語でも利用できる。
我々は,中国語,英語,インドネシア語,日本語,スペイン語の5つの多言語に対して,YouTube字幕を用いて周波数ノルムを構築し,語彙決定時間,単語親和性,語彙複雑性との相関性を評価する。
2つの心理言語学変数と強く相関するのに加えて、新しい周波数に対する単純な線形回帰は、英語と日本語の語彙的複雑性予測タスクにおいて、フィルム字幕周波数とLLM GPT-4で訓練されたモデルの両方を上回り、新しい高いスコアを達成する。
私たちのコード、頻度リスト、fastTextワードの埋め込み、統計言語モデルはhttps://github.com/naist-nlp/tubelex.comで無料で利用可能です。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Lip Reading for Low-resource Languages by Learning and Combining General
Speech Knowledge and Language-specific Knowledge [57.38948190611797]
本稿では,特に低リソース言語を対象とした新しい唇読解フレームワークを提案する。
低リソース言語は、そのモデルを訓練するのに十分なビデオテキストペアデータを持っていないため、低リソース言語のための唇読解モデルを開発するのは難しいと考えられている。
論文 参考訳(メタデータ) (2023-08-18T05:19:03Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - Creating Speech-to-Speech Corpus from Dubbed Series [8.21384946488751]
本稿では,音声合成コーパスを構築するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを利用して,両言語のセグメントをマッチングする。
私たちのパイプラインは17時間のペアセグメントを生成することができました。
論文 参考訳(メタデータ) (2022-03-07T18:52:48Z) - Between Flexibility and Consistency: Joint Generation of Captions and
Subtitles [13.58711830450618]
音声翻訳(ST)は、最近、中間ソース言語の転写とタイミングを必要とせず、字幕生成への関心が高まっている。
本研究では、構造や語彙内容の観点から一貫した字幕字幕を生成するSTモデルに焦点を当てる。
本研究は, 共同復号化によって生成した字幕と字幕間の性能と一貫性が向上し, 言語固有のニーズや規範に適合した字幕を生成するのに十分な柔軟性が得られていることを示す。
論文 参考訳(メタデータ) (2021-07-13T17:06:04Z) - Multilingual Byte2Speech Text-To-Speech Models Are Few-shot Spoken
Language Learners [11.190877290770047]
本稿では、バイト入力をスペクトログラムにマッピングし、任意の入力スクリプトを可能にする多言語用エンドツーエンドテキスト合成フレームワークを提案する。
このフレームワークは、極端に低リソースのシナリオ下で、様々な新しい言語に適応する能力を示す。
多言語モデルのメカニズムをよりよく理解するために,言語固有のサブネットワークを抽出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T08:41:45Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - MuST-Cinema: a Speech-to-Subtitles corpus [16.070428245677675]
TED字幕から構築した多言語音声翻訳コーパスである MuST-Cinema について述べる。
コーパスを用いて文を字幕に効率的に分割するモデルを構築することができることを示す。
本稿では,既存の字幕を字幕の字幕にアノテートする手法を提案する。
論文 参考訳(メタデータ) (2020-02-25T12:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。