Fugu-MT 論文翻訳(概要): The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities

論文の概要: The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities

arxiv url: http://arxiv.org/abs/2501.13921v1
Date: Thu, 23 Jan 2025 18:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.377725
Title: The Breeze 2 Herd of Models: Traditional Chinese LLMs Based on Llama with Vision-Aware and Function-Calling Capabilities
Title（参考訳）: ブリーズ2型モデル:視覚認識機能と機能ケア機能を備えたLlamaをベースとした中国の伝統的なLLM
Authors: Chan-Jan Hsu, Chia-Sheng Liu, Meng-Hsi Chen, Muxi Chen, Po-Chun Hsu, Yi-Chang Chen, Da-Shan Shiu,
Abstract要約: Breeze 2は、高度なマルチモーダル言語モデルのスイートで、3Bおよび8Bパラメータ設定で利用可能である。ラマ3の上に建設されるブレーズ2は、伝統的な中国語の言語と文化の遺産を強化するため、広範なコーパスで事前訓練を続けている。
参考スコア（独自算出の注目度）: 14.125762544011021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Breeze 2 is a suite of advanced multi-modal language models, available in 3B and 8B parameter configurations, specifically designed to enhance Traditional Chinese language representation. Building upon the Llama 3, Breeze 2 continues pretraining on an extensive corpus to enhance the linguistic and cultural heritage of Traditional Chinese. It incorporates vision-aware capabilities through a visual encoder and a bridge module, and supports function-calling via prompt templates and post-training on function-calling data. The effectiveness of Breeze 2 is benchmarked across various tasks, including Taiwan general knowledge, instruction-following, long context, function calling, and vision understanding. Furthermore, we showcase the capabilities of the its 3B model in a mobile application. We are publicly releasing all Breeze 2 models under the Llama 3 Community License.
Abstract（参考訳）: Breeze 2は先進的なマルチモーダル言語モデルのスイートで、3Bおよび8Bパラメータ設定で利用できる。ラマ3の上に建設されるブレーズ2は、伝統的な中国語の言語と文化の遺産を強化するため、広範なコーパスで事前訓練を続けている。ビジュアルエンコーダとブリッジモジュールを通じて視覚認識機能を導入し、プロンプトテンプレートによる関数呼び出しと、関数呼び出しデータによる後トレーニングをサポートする。 Breeze 2の有効性は、台湾の一般知識、命令フォロー、長いコンテキスト、関数呼び出し、視覚理解など、様々なタスクでベンチマークされている。さらに,モバイルアプリケーションにおける3Bモデルの性能についても紹介する。 Llama 3 Community Licenseの下で、すべてのBreeze 2モデルを公開しています。

関連論文リスト

Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文参考訳（メタデータ） (2025-03-10T17:58:33Z)
MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish [17.36441080071885]
本報告では,中国語,インドネシア語,マレー語,シングリッシュ語の理解と生成を改善するためのオープンソース言語モデルであるMERaLiON-TextLLMについて述べる。提案手法は,これらの言語のベンチマークにおいて,公式のLlama-3モデルを上回る性能向上を実現する。
論文参考訳（メタデータ） (2024-12-21T05:50:48Z)
Improving Multi-modal Large Language Model through Boosting Vision Capabilities [54.344077285545005]
視覚言語モデルを強化するための視覚理解能力の改善に注力する。マルチモーダル言語モデルである textbfArcana を提案する。
論文参考訳（メタデータ） (2024-10-17T16:36:38Z)
The Llama 3 Herd of Models [356.6353861669039]
本稿ではLlama 3と呼ばれる新しい基礎モデルについて述べる。 Llama 3は、多言語性、コーディング、推論、ツール使用をサポートする言語モデルの群れである。 Llama 3は、GPT-4のような主要な言語モデルに匹敵する品質を多くのタスクで提供しています。
論文参考訳（メタデータ） (2024-07-31T17:54:27Z)
MammothModa: Multi-Modal Large Language Model [17.98445238232718]
MammothModaは、Multi-modal large language model(MLLM)である。 MammothModaは、例えばLLaVAシリーズのような最先端のモデルを、ベルやホイッスルのない主要な実世界のビジュアル言語ベンチマークで一貫して上回っている。
論文参考訳（メタデータ） (2024-06-26T09:17:27Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文参考訳（メタデータ） (2023-10-12T09:39:17Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)
ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文参考訳（メタデータ） (2022-11-19T03:50:33Z)
cViL: Cross-Lingual Training of Vision-Language Models using Knowledge Distillation [6.381149074212897]
本稿では、英語のみの視覚言語モデルを用いて、対象言語に対する単言語モデルを訓練するパイプラインを提案する。日本語とヒンディー語で大規模な視覚的質問応答データセットをリリースする。我々のパイプラインは、それぞれ4.4%と13.4%の精度で現在の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2022-06-07T14:46:30Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。