Fugu-MT 論文翻訳(概要): Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models

論文の概要: Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models

arxiv url: http://arxiv.org/abs/2412.13702v1
Date: Wed, 18 Dec 2024 10:45:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.161377
Title: Typhoon 2: A Family of Open Text and Multimodal Thai Large Language Models
Title（参考訳）: Typhoon 2: オープンテキストとマルチモーダルタイ語大言語モデルのファミリー
Authors: Kunat Pipatanakul, Potsawee Manakul, Natapong Nitarach, Warit Sirichotedumrong, Surapon Nonesung, Teetouch Jaknamon, Parinthapat Pengpun, Pittawat Taveekitworachai, Adisai Na-Thalang, Sittipong Sripaisarnmongkol, Krisanapong Jirayoot, Kasima Tharnpipitchai,
Abstract要約: Typhoon2-Textは、Llama 3やQwen2のような最先端のオープンモデルに基づいている。 Typhoon2-Visionは、画像キャプションなどの一般的な視覚能力を維持しながら、タイ語の文書理解を改善する。 Typhoon2-Audioはエンドツーエンドの音声合成モデルアーキテクチャを導入した。
参考スコア（独自算出の注目度）: 8.837674729629285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces Typhoon 2, a series of text and multimodal large language models optimized for the Thai language. The series includes models for text, vision, and audio. Typhoon2-Text builds on state-of-the-art open models, such as Llama 3 and Qwen2, and we perform continual pre-training on a mixture of English and Thai data. We employ various post-training techniques to enhance Thai language performance while preserving the base models' original capabilities. We release text models across a range of sizes, from 1 to 70 billion parameters, available in both base and instruction-tuned variants. Typhoon2-Vision improves Thai document understanding while retaining general visual capabilities, such as image captioning. Typhoon2-Audio introduces an end-to-end speech-to-speech model architecture capable of processing audio, speech, and text inputs and generating both text and speech outputs simultaneously.
Abstract（参考訳）: 本稿ではタイ語に最適化されたテキストとマルチモーダルな大規模言語モデルであるTyphoon 2を紹介する。シリーズには、テキスト、ビジョン、オーディオのモデルが含まれている。 Typhoon2-Text は Llama 3 や Qwen2 のような最先端のオープンモデルに基づいて構築され、英語とタイ語のデータを混合して連続的な事前学習を行う。我々は,基本モデルの本来の能力を維持しつつ,タイ語のパフォーマンスを向上させるために,様々なポストトレーニング手法を採用している。私たちは10億から70億のパラメータのテキストモデルをリリースし、ベースと命令チューニングの両方の亜種で利用可能です。 Typhoon2-Visionは、画像キャプションなどの一般的な視覚能力を維持しながら、タイ語の文書理解を改善する。 Typhoon2-Audioは、音声、音声、テキスト入力を処理し、テキストと音声の出力を同時に生成できるエンドツーエンドの音声音声合成モデルアーキテクチャを導入している。

関連論文リスト

Leveraging Unit Language Guidance to Advance Speech Modeling in Textless Speech-to-Speech Translation [48.769137497536]
本稿では,2つのモデリング課題を克服する単位言語を提案する。単位言語はテキストのような表現形式とみなすことができる。我々は,音声モデリングプロセスの指導に単位言語を利用するために,マルチタスク学習を実装した。
論文参考訳（メタデータ） (2025-05-21T10:05:25Z)
Generalized Multilingual Text-to-Speech Generation with Language-Aware Style Adaptation [18.89091877062589]
LanStyleTTS は非自己回帰型言語対応の適応型 TTS フレームワークである。言語固有のモデルを訓練することなく、正確で高品質な音声を生成することができる統合多言語TSモデルをサポートしている。
論文参考訳（メタデータ） (2025-04-11T06:12:57Z)
Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models [13.855545744177586]
本稿では,タイ語を用いた未保存言語における既存の音声言語モデルの性能について検討する。多言語バックボーン上に構築されているにもかかわらず、音声言語モデルは言語間の創発能力を示すものではない。本稿では,音声理解と音声指示追従機能を単一統一モデルに統合する。
論文参考訳（メタデータ） (2024-09-17T09:04:03Z)
NAIST Simultaneous Speech Translation System for IWSLT 2024 [18.77311658086372]
本稿では,IWSLT 2024評価キャンペーンの同時進行に対するNAISTの提出について述べる。 We developed a multilingual end-to-end speech-to-text translation model with two-trained language model, HuBERT and mBART。私たちはこのモデルを、ローカルアグリーメント(LA)とAlignAttという2つのデコードポリシでトレーニングしました。音声から音声への変換法は,上述した音声からテキストへの変換モデルのカスケードであり,TTSモジュールをインクリメンタルに生成する。
論文参考訳（メタデータ） (2024-06-30T20:41:02Z)
AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。 6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文参考訳（メタデータ） (2024-06-17T11:37:48Z)
Typhoon: Thai Large Language Models [10.104705021561008]
タイ語(タイ語: Typhoon)は、タイ語向けに開発された大型言語モデルである。本報告では,タイのLLM開発における課題と知見について述べる。
論文参考訳（メタデータ） (2023-12-21T15:38:41Z)
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文参考訳（メタデータ） (2023-11-28T04:02:40Z)
Towards Practical and Efficient Image-to-Speech Captioning with Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文参考訳（メタデータ） (2023-09-15T16:48:34Z)
AltDiffusion: A Multilingual Text-to-Image Diffusion Model [4.534546889526814]
18の異なる言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。具体的には,知識蒸留に基づいて,まず多言語テキストエンコーダを訓練する。次に、事前訓練された英語のみの拡散モデルにプラグインし、2段階のスキーマでモデルを訓練し、多言語機能を強化する。
論文参考訳（メタデータ） (2023-08-19T11:52:12Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。 3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文参考訳（メタデータ） (2023-05-24T17:59:05Z)
WAVPROMPT: Towards Few-Shot Spoken Language Understanding with Frozen Language Models [57.557319372969495]
大量のテキストで事前訓練された大規模自動回帰言語モデルは、新しい自然言語タスクを実行するという印象的な能力を示している。近年の研究では、エンコーダを訓練し、画像のエンコードを埋め込みにすることで、このような数発の学習能力をテキスト画像設定にまで拡張できることが示されている。そこで我々は,wav2vecモデルを微調整して,言語モデルによって理解された音声埋め込みのシーケンスを生成する,新しい音声理解フレームワークWavPromptを提案する。
論文参考訳（メタデータ） (2022-03-29T19:08:55Z)
Exploring Teacher-Student Learning Approach for Multi-lingual Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文参考訳（メタデータ） (2021-09-28T04:43:11Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)
Fused Acoustic and Text Encoding for Multimodal Bilingual Pretraining and Speech Translation [21.622039537743607]
本稿では,FAT-MLM(Fused Acoustic and Text Masked Language Model)を提案する。 3つの翻訳方向の実験により,FAT-MLMから微調整した音声翻訳モデルが翻訳品質を大幅に向上することが示された。
論文参考訳（メタデータ） (2021-02-10T22:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。