論文の概要: RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware
- arxiv url: http://arxiv.org/abs/2503.08188v1
- Date: Tue, 11 Mar 2025 08:53:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:00.776909
- Title: RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware
- Title(参考訳): RigoChat 2: 境界データセットと還元ハードウェアを用いたスペイン語への適応型言語モデル
- Authors: Gonzalo Santamaría Gómez, Guillem García Subies, Pablo Gutiérrez Ruiz, Mario González Valero, Natàlia Fuertes, Helena Montoro Zamorano, Carmen Muñoz Sanz, Leire Rosado Plaza, Nuria Aldama García, David Betancur Sánchez, Kateryna Sushkova, Marta Guerrero Nieto, Álvaro Barbero Jiménez,
- Abstract要約: 大規模言語モデル(LLM)は現代の人工知能の重要な要素となっている。
本稿では,LLMがスペイン語タスクにおいて優れた結果を得るためにどのように適応できるかを示すユースケースであるRigoChat 2について述べる。
- 参考スコア(独自算出の注目度): 0.33707099470112734
- License:
- Abstract: Large Language Models (LLMs) have become a key element of modern artificial intelligence, demonstrating the ability to address a wide range of language processing tasks at unprecedented levels of accuracy without the need of collecting problem-specific data. However, these versatile models face a significant challenge: both their training and inference processes require substantial computational resources, time, and memory. Consequently, optimizing this kind of models to minimize these requirements is crucial. In this article, we demonstrate that, with minimal resources and in a remarkably short time, it is possible to enhance a state-of-the-art model, specifically for a given language task, without compromising its overall capabilities using a relatively small pretrained LLM as a basis. Specifically, we present our use case, RigoChat 2, illustrating how LLMs can be adapted to achieve superior results in Spanish-language tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は現代の人工知能の重要な要素となり、問題固有のデータを収集することなく、前例のないレベルの精度で幅広い言語処理タスクに対処できることを実証している。
しかしながら、これらの汎用モデルは、トレーニングと推論の両方のプロセスは、かなりの計算資源、時間、メモリを必要とするため、重大な課題に直面している。
したがって、これらの要求を最小限にするためにこの種のモデルを最適化することが不可欠である。
本稿では、最小限のリソースと極めて短い時間で、与えられた言語タスクに対して、比較的小さな事前学習 LLM を基礎として全体的な能力を妥協することなく、最先端のモデルを拡張できることを実証する。
具体的には,このユースケースであるRigoChat 2について,LLMがスペイン語タスクにおいて優れた結果を得るためにどのように適応できるかを説明する。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。
英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-13T22:14:45Z) - Bactrainus: Optimizing Large Language Models for Multi-hop Complex Question Answering Tasks [5.439505575097552]
本研究では,HotpotQAデータセットを用いて,大規模言語モデルのドメイン固有タスク実行能力を評価する。
このタスクは、これらのモデルの言語理解能力を評価するための挑戦的なベンチマークとなる。
その結果,これらの手法と大規模言語モデルを統合することで,F1スコアの最大4%の改善が期待できることがわかった。
論文 参考訳(メタデータ) (2025-01-10T18:44:06Z) - TransformLLM: Adapting Large Language Models via LLM-Transformed Reading Comprehension Text [5.523385345486362]
法的な応用に特化して設計された言語モデルを開発した。
我々の革新的なアプローチは、Large Language Models (LLMs) を用いて、生のトレーニングデータを読解テキストに変換することによって、法的タスクの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-28T19:32:18Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。