論文の概要: Pantagruel: Unified Self-Supervised Encoders for French Text and Speech
- arxiv url: http://arxiv.org/abs/2601.05911v1
- Date: Fri, 09 Jan 2026 16:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.036476
- Title: Pantagruel: Unified Self-Supervised Encoders for French Text and Speech
- Title(参考訳): Pantagruel: フランス語のテキストと音声のための、統一されたセルフスーパービジョンエンコーダ
- Authors: Phuong-Hang Le, Valentin Pelloin, Arnault Chatelain, Maryem Bouziane, Mohammed Ghennai, Qianwen Guan, Kirill Milintsevich, Salima Mdhaffar, Aidan Mannion, Nils Defauw, Shuyue Gu, Alexandre Audibert, Marco Dinarelli, Yannick Estève, Lorraine Goeuriot, Steffen Lalande, Nicolas Hervé, Maximin Coavoux, François Portet, Étienne Ollion, Marie Candito, Maxime Peyrard, Solange Rossato, Benjamin Lecouteux, Aurélie Nardy, Gilles Sérasset, Vincent Segonne, Solène Evain, Diandra Fabre, Didier Schwab,
- Abstract要約: 我々は、フランス語のテキストと音声のための自己教師型エンコーダモデルの新しいファミリーであるPantagruelモデルをリリースする。
テキストトークンや音声単位などのモダリティに適したターゲットを予測する代わりに、Pantagruelは特徴空間におけるコンテキスト化されたターゲット表現を学習する。
Wikipedia、OSCAR、CroissantLLM、MultilingualLibriSpeech、LeBenchmark、INA-100kなど、大規模なフランスのコーパスで事前訓練されている。
- 参考スコア(独自算出の注目度): 44.1950376754309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We release Pantagruel models, a new family of self-supervised encoder models for French text and speech. Instead of predicting modality-tailored targets such as textual tokens or speech units, Pantagruel learns contextualized target representations in the feature space, allowing modality-specific encoders to capture linguistic and acoustic regularities more effectively. Separate models are pre-trained on large-scale French corpora, including Wikipedia, OSCAR and CroissantLLM for text, together with MultilingualLibriSpeech, LeBenchmark, and INA-100k for speech. INA-100k is a newly introduced 100,000-hour corpus of French audio derived from the archives of the Institut National de l'Audiovisuel (INA), the national repository of French radio and television broadcasts, providing highly diverse audio data. We evaluate Pantagruel across a broad range of downstream tasks spanning both modalities, including those from the standard French benchmarks such as FLUE or LeBenchmark. Across these tasks, Pantagruel models show competitive or superior performance compared to strong French baselines such as CamemBERT, FlauBERT, and LeBenchmark2.0, while maintaining a shared architecture that can seamlessly handle either speech or text inputs. These results confirm the effectiveness of feature-space self-supervised objectives for French representation learning and highlight Pantagruel as a robust foundation for multimodal speech-text understanding.
- Abstract(参考訳): 我々は、フランス語のテキストと音声のための自己教師型エンコーダモデルの新しいファミリーであるPantagruelモデルをリリースする。
テキストトークンや音声単位などのモダリティに適したターゲットを予測する代わりに、パンタグルエルは特徴空間における文脈化されたターゲット表現を学習し、モダリティ固有のエンコーダにより言語的および音響的規則性をより効果的に捉えることができる。
Wikipedia、OSCAR、CroissantLLM、MultilingualLibriSpeech、LeBenchmark、INA-100kなど、大規模なフランスのコーパスで事前訓練されている。
INA-100k(英語: INA-100k)は、フランスのラジオ・テレビ放送の国立リポジトリであるInstitut National de l'Audiovisuel (INA)のアーカイブから派生した、フランスの音声の10万時間コーパスである。
FLUE や LeBenchmark などの標準フランスのベンチマークなど,両モードにまたがる幅広いダウンストリームタスクを対象に,Pantagruel の評価を行った。
これらのタスク全体にわたって、Pantagruelモデルは、CamemBERT、FrauBERT、LeBenchmark2.0といった強力なフランスのベースラインと比較して、競争力や優れたパフォーマンスを示しながら、音声やテキストの入力をシームレスに処理できる共有アーキテクチャを維持している。
これらの結果は,フランス語表現学習における特徴空間の自己指導的目的の有効性を確認し,マルチモーダル音声テキスト理解のための堅牢な基盤としてパンタグルエルを強調した。
関連論文リスト
- TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - ASR-Generated Text for Language Model Pre-training Applied to Speech
Tasks [20.83731188652985]
我々は、フランス国立音響研究所(INA)のコレクションを活用し、多様なテレビ番組の35万時間にASRを適用した後、19GBのテキストを取得する。
新たなモデル(FlauBERT-Oral)がコミュニティと共有され、音声言語理解、テレビ番組の分類、音声構文解析の3つのダウンストリームタスクに対して評価される。
論文 参考訳(メタデータ) (2022-07-05T08:47:51Z) - FLEURS: Few-shot Learning Evaluation of Universal Representations of
Speech [33.71744518887916]
FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech benchmark)を紹介する。
FLEURSは、機械翻訳FLoRes-101ベンチマーク上に構築された102言語におけるn-way並列音声データセットである。
論文 参考訳(メタデータ) (2022-05-25T02:29:03Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。