論文の概要: Tucano 2 Cool: Better Open Source LLMs for Portuguese
- arxiv url: http://arxiv.org/abs/2603.03543v1
- Date: Tue, 03 Mar 2026 21:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.103216
- Title: Tucano 2 Cool: Better Open Source LLMs for Portuguese
- Title(参考訳): Tucano 2 Cool: ポルトガルのオープンソース LLM の改善
- Authors: Nicholas Kluge Corrêa, Aniket Sen, Shiza Fatimah, Sophia Falk, Lennard Landgraf, Julia Kastner, Lucie Flek,
- Abstract要約: 0.5-3.7億のパラメータを持つ大規模言語モデル(LLM)の完全なオープンスイートであるTucano 2を紹介します。
データセットであるGigaVerbo-v2を、新たな品質とスケールに拡張しています。
我々は、GigaVerbo-v2の欠落を埋めるために、新しい合成データセットGigaVerbo-v2 Synthを導入する。
Tucano 2に関連するすべてのアーティファクトは、トレーニングレシピ、ログ、ソースコードを含む、公開リリースされている。
- 参考スコア(独自算出の注目度): 13.329338838782007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Tucano 2, a fully open suite of large language models (LLMs) with 0.5-3.7 billion parameters, designed to address certain gaps in open-source development for Portuguese LLMs. Following our previous works, we now extend our dataset, GigaVerbo-v2, to a new degree of quality and scale, while also introducing a new synthetic dataset, GigaVerbo-v2 Synth, aimed at filling missing gaps in GigaVerbo-v2, and two post-training datasets, GigaVerbo-v2 SFT and GigaVerbo-v2 Preferences, that allow Portuguese LLMs to be trained in domains like retrieval augmented generation, coding, tool use, chain-of-thought reasoning, and many other domains of interest. Through extensive ablation studies, we design both pretraining and continual pretraining recipes for the Tucano 2 suite (Base, Instruct, and Think), which achieve state-of-the-art performance on several Portuguese-language modeling benchmarks. We also extend and refine the evaluation harness introduced in our earlier work, yielding a comprehensive evaluation suite that provides strong signals across different pretraining, continual pretraining, and post-training regimes. All artifacts associated with Tucano 2 are openly released, including training recipes, logs, and source code, ensuring that our work is reproducible, accessible, and extendable by the broader Portuguese NLP community.
- Abstract(参考訳): ポルトガルのLLM向けのオープンソース開発において、あるギャップに対処するために設計された0.5-3.7億のパラメータを持つ、完全にオープンな大規模言語モデル(LLM)スイートであるTucano 2を提示する。
これまでの研究に続いて、GigaVerbo-v2というデータセットを新たな品質とスケールに拡張するとともに、GigaVerbo-v2の欠落を埋めることを目的とした新たな合成データセットであるGigaVerbo-v2 Synthと、GigaVerbo-v2 SFTとGigaVerbo-v2という2つのトレーニング後のデータセットを導入しました。
大規模なアブレーション研究を通じて、ポルトガル語のモデリングベンチマークで最先端のパフォーマンスを実現するTucano 2スイート(Base、Instruct、Think)の事前学習と継続事前学習のレシピを設計する。
また,従来の研究で導入した評価ハーネスを拡張し,改良し,様々な事前訓練,継続事前訓練,訓練後体制に強い信号を提供する包括的評価スイートを作成した。
Tucano 2に関連するすべてのアーティファクトは、トレーニングレシピ、ログ、ソースコードを含む公開され、我々の作業が再現可能で、アクセス可能で、ポルトガルのNLPコミュニティによって拡張可能であることを保証します。
関連論文リスト
- Automated Snippet-Alignment Data Augmentation for Code Translation [51.59756295898321]
並列コーパスはプログラムアライメント(PA)とスニペットアライメント(SA)データに分類される。
本稿では,LSMを利用してSAデータを自動的に生成するデータ拡張手法を提案する。
TransCoder-testの実験では、拡張SAデータと2段階のトレーニングアプローチを組み合わせることで、一貫した改善が得られます。
論文 参考訳(メタデータ) (2025-10-16T02:30:24Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language [48.79534869177174]
我々は、FineWebをベースにした、新しいトレーニング済みデータセットキュレーションパイプラインを導入する。
我々のパイプラインは、以前のデータセットよりもパフォーマンスの高いモデルを生成する非英語コーパスを作成するために使用できることを示す。
パイプラインを約100のCommon Crawlスナップショットを使用して1000以上の言語に拡張し、新たに20テラバイト(50億ドキュメント)のマルチリンガルデータセットであるFinWeb2を生成しました。
論文 参考訳(メタデータ) (2025-06-26T01:01:47Z) - 2 OLMo 2 Furious [154.15728448754854]
我々は、私たちの完全にオープンな言語の次世代モデルであるOLMo 2を紹介します。
OLMo 2は、7B、13B、32Bスケールの高密度な自己回帰言語モデルを含む。
修正されたモデルアーキテクチャとトレーニングレシピについて説明する。
論文 参考訳(メタデータ) (2024-12-31T21:55:10Z) - Tucano: Advancing Neural Text Generation for Portuguese [0.0]
本研究は,ポルトガル語におけるニューラルテキスト生成の今後の発展を促進するために,新たなリソースセットを導入することを目的としている。
本研究は,ポルトガル語テキストコーパスの重複であるGigaVerboの開発について述べる。
我々のモデルは、ポルトガルのいくつかのベンチマークにおいて、同様の大きさの他のポルトガル語および多言語言語モデルと同等または優れている。
論文 参考訳(メタデータ) (2024-11-12T15:06:06Z) - Language Portability Strategies for Open-domain Dialogue with Pre-trained Language Models from High to Low Resource Languages [1.7436854281619139]
オープンドメイン対話システムに使用される大規模事前学習言語モデル(PLM)の言語ポータビリティ戦略について検討する。
特に、ターゲットの低リソース言語(L_T)は、タスク固有のリソースがないため、フランス語でシミュレートされる。
論文 参考訳(メタデータ) (2024-07-01T14:20:54Z) - MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series [86.31735321970481]
私たちはMAP-Neoをオープンソースにしました。これは、4.5Tの高品質トークン上で、スクラッチからトレーニングされた7Bパラメータを持つバイリンガル言語モデルです。
MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。
論文 参考訳(メタデータ) (2024-05-29T17:57:16Z) - Introducing Bode: A Fine-Tuned Large Language Model for Portuguese
Prompt-Based Task [1.158680734110387]
この研究は、ポルトガルのプロンプト「ボーデ」のための微調整されたLLaMA 2ベースのモデルを提案する。
In-context Learningを用いたゼロショット手法を用いて分類タスクにおけるこのモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-01-05T17:15:01Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。