論文の概要: The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities
- arxiv url: http://arxiv.org/abs/2501.13921v1
- Date: Thu, 23 Jan 2025 18:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:58:24.408606
- Title: The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities
- Title(参考訳): ブリーズ2型モデル:視覚認識機能と機能ケア機能を備えたLlamaをベースとした中国の伝統的なLLM
- Authors: Chan-Jan Hsu, Chia-Sheng Liu, Meng-Hsi Chen, Muxi Chen, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu,
- Abstract要約: Breeze 2は、高度なマルチモーダル言語モデルのスイートで、3Bおよび8Bパラメータ設定で利用可能である。
ラマ3の上に建設されるブレーズ2は、伝統的な中国語の言語と文化の遺産を強化するため、広範なコーパスで事前訓練を続けている。
- 参考スコア(独自算出の注目度): 14.125762544011021
- License:
- Abstract: Breeze 2 is a suite of advanced multi-modal language models, available in 3B and 8B parameter configurations, specifically designed to enhance Traditional Chinese language representation. Building upon the Llama 3, Breeze 2 continues pretraining on an extensive corpus to enhance the linguistic and cultural heritage of Traditional Chinese. It incorporates vision-aware capabilities through a visual encoder and a bridge module, and supports function-calling via prompt templates and post-training on function-calling data. The effectiveness of Breeze 2 is benchmarked across various tasks, including Taiwan general knowledge, instruction-following, long context, function calling, and vision understanding. Furthermore, we showcase the capabilities of the its 3B model in a mobile application. We are publicly releasing all Breeze 2 models under the Llama 3 Community License.
- Abstract(参考訳): Breeze 2は先進的なマルチモーダル言語モデルのスイートで、3Bおよび8Bパラメータ設定で利用できる。
ラマ3の上に建設されるブレーズ2は、伝統的な中国語の言語と文化の遺産を強化するため、広範なコーパスで事前訓練を続けている。
ビジュアルエンコーダとブリッジモジュールを通じて視覚認識機能を導入し、プロンプトテンプレートによる関数呼び出しと、関数呼び出しデータによる後トレーニングをサポートする。
Breeze 2の有効性は、台湾の一般知識、命令フォロー、長いコンテキスト、関数呼び出し、視覚理解など、様々なタスクでベンチマークされている。
さらに,モバイルアプリケーションにおける3Bモデルの性能についても紹介する。
Llama 3 Community Licenseの下で、すべてのBreeze 2モデルを公開しています。
関連論文リスト
- Croc: Pretraining Large Multimodal Models with Cross-Modal Comprehension [26.24115839983423]
本稿では,Large Language Models (LLM) のための新しい事前学習パラダイムを提案し,その視覚的理解能力を高める。
具体的には、動的に学習可能なプロンプトトークンプールを設計し、ハンガリーのアルゴリズムを用いて、元のビジュアルトークンの一部を最も関連性の高いプロンプトトークンに置き換える。
我々はCrocと呼ばれる新しい基礎モデルを提案し、大規模な視覚言語ベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-18T09:44:25Z) - Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。
マルチモーダル言語モデルである textbfArcana を提案する。
論文 参考訳(メタデータ) (2024-10-17T16:36:38Z) - The Llama 3 Herd of Models [356.6353861669039]
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。
Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。
Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文 参考訳(メタデータ) (2024-07-31T17:54:27Z) - MammothModa: Multi-Modal Large Language Model [17.98445238232718]
MammothModaは、Multi-modal large language model(MLLM)である。
MammothModaは、例えばLLaVAシリーズのような最先端のモデルを、ベルやホイッスルのない主要な実世界のビジュアル言語ベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-26T09:17:27Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。