論文の概要: T5Gemma 2: Seeing, Reading, and Understanding Longer
- arxiv url: http://arxiv.org/abs/2512.14856v1
- Date: Tue, 16 Dec 2025 19:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.762027
- Title: T5Gemma 2: Seeing, Reading, and Understanding Longer
- Title(参考訳): T5Gemma 2: より長く見る、読む、理解する
- Authors: Biao Zhang, Paul Suganthan, Gaël Liu, Ilya Philippov, Sahil Dua, Ben Hora, Kat Black, Gus Martins, Omar Sanseviero, Shreya Pathak, Cassidy Hardin, Francesco Visin, Jiageng Zhang, Kathleen Kenealy, Qin Yin, Olivier Lacombe, Armand Joulin, Tris Warkentin, Adam Roberts,
- Abstract要約: 我々は,軽量オープンエンコーダデコーダモデルの次世代T5GemmaファミリーであるT5Gemma 2を紹介する。
T5Gemma 2は、強力な多言語、マルチモーダル、ロングコンテキスト機能を備えている。
- 参考スコア(独自算出の注目度): 14.909414191742384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce T5Gemma 2, the next generation of the T5Gemma family of lightweight open encoder-decoder models, featuring strong multilingual, multimodal and long-context capabilities. T5Gemma 2 follows the adaptation recipe (via UL2) in T5Gemma -- adapting a pretrained decoder-only model into an encoder-decoder model, and extends it from text-only regime to multimodal based on the Gemma 3 models. We further propose two methods to improve the efficiency: tied word embedding that shares all embeddings across encoder and decoder, and merged attention that unifies decoder self- and cross-attention into a single joint module. Experiments demonstrate the generality of the adaptation strategy over architectures and modalities as well as the unique strength of the encoder-decoder architecture on long context modeling. Similar to T5Gemma, T5Gemma 2 yields comparable or better pretraining performance and significantly improved post-training performance than its Gemma 3 counterpart. We release the pretrained models (270M-270M, 1B-1B and 4B-4B) to the community for future research.
- Abstract(参考訳): 我々は,マルチ言語,マルチモーダル,長文機能を備えた軽量オープンエンコーダデコーダモデルの次世代T5GemmaファミリであるT5Gemma 2を紹介する。
T5Gemma 2は、T5Gemmaの(UL2経由で)適応レシピに従い、事前訓練されたデコーダのみのモデルをエンコーダ-デコーダモデルに適合させ、Gemma 3モデルに基づいたテキストのみのレシエーションからマルチモーダルに拡張する。
さらに,エンコーダとデコーダにまたがるすべての埋め込みを共用する単語埋め込みと,デコーダの自己認識とクロスアテンションを1つのジョイントモジュールに統合する統合アテンションの2つの手法を提案する。
実験では、アーキテクチャやモダリティに対する適応戦略の一般化と、長いコンテキストモデリングにおけるエンコーダ・デコーダアーキテクチャの独特な強みが示されている。
T5Gemmaと同様、T5Gemma 2はGemma 3と比べて、同等か改善された事前トレーニング性能と大幅に改善されている。
予訓練モデル(270M-270M、1B-1B、4B-4B)をコミュニティにリリースし、今後の研究を行う。
関連論文リスト
- Encoder-Decoder Gemma: Improving the Quality-Efficiency Trade-Off via Adaptation [52.19855651708349]
我々は,デコーダのみの大規模言語モデルをエンコーダ-デコーダモデルに適応させるという,新しい問題を研究する。
適応はデコーダのみのLLMの能力を継承するだけでなく、計算の需要を減らすことができると主張している。
同様の推論予算の下では、エンコーダ-デコーダ LLM は(しばしばより優れた)事前訓練性能を達成できるが、デコーダのみの性能よりもはるかに優れた微調整性能が得られる。
論文 参考訳(メタデータ) (2025-04-08T17:13:41Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Joint Beam Search Integrating CTC, Attention, and Transducer Decoders [53.297697898510194]
4つのデコーダが同一のエンコーダを共有するような共同モデリング手法を提案する。
4Dモデルは共同で訓練され、モデルの正規化とモデルの堅牢性を最大化する。
さらに,3つのデコーダを組み合わせることで,新しい3つのビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - MUSTER: A Multi-scale Transformer-based Decoder for Semantic Segmentation [19.83103856355554]
MUSTERはトランスフォーマーベースのデコーダで、階層エンコーダとシームレスに統合される。
MSKAユニットはエンコーダとデコーダからのマルチスケール機能の融合を可能にし、包括的な情報統合を容易にする。
ADE20Kデータセットでは,50.23の単一スケールmIoUと51.88のマルチスケールmIoUを達成する。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - EncT5: Fine-tuning T5 Encoder for Non-autoregressive Tasks [9.141586109808895]
我々は、T5のような微調整済みのエンコーダデコーダモデルについて検討する。
実験の結果, T5 のパラメータの半分未満の textbfEncT5 は GLUE ベンチマークの T5 モデルと同様の性能を示した。
論文 参考訳(メタデータ) (2021-10-16T00:50:08Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z) - Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models [20.81248613653279]
本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。
3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。
我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
論文 参考訳(メタデータ) (2019-12-28T02:29:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。