論文の概要: FiLLM -- A Filipino-optimized Large Language Model based on Southeast Asia Large Language Model (SEALLM)
- arxiv url: http://arxiv.org/abs/2505.18995v1
- Date: Sun, 25 May 2025 06:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.819028
- Title: FiLLM -- A Filipino-optimized Large Language Model based on Southeast Asia Large Language Model (SEALLM)
- Title(参考訳): FiLLM - 東南アジア大言語モデル(SEALLM)に基づくフィリピン最適化大言語モデル
- Authors: Carlos Jude G. Maminta, Isaiah Job Enriquez, Deandre Nigel Nunez, Michael B. Dela Fuente,
- Abstract要約: 本研究では,フィリピン語を最適化した大規模言語モデルFiLLMを提案する。
SeaLLM-7B 2.5モデルに基づいて構築されたFiLLMは、タスク固有の性能を維持しながらメモリ効率を最適化するためにローランド適応(LoRA)ファインチューニングを利用する。
このモデルは、NER(Named Entity Recognition)、POS(Part-of-Speech)タグ付け(Part-of-Speech)、依存性解析(Dependency Parsing)、テキスト要約(Text Summarization)など、主要なNLPタスクに対応するために、さまざまなフィリピンのデータセットでトレーニングされ評価された。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents FiLLM, a Filipino-optimized large language model, designed to enhance natural language processing (NLP) capabilities in the Filipino language. Built upon the SeaLLM-7B 2.5 model, FiLLM leverages Low-Rank Adaptation (LoRA) fine-tuning to optimize memory efficiency while maintaining task-specific performance. The model was trained and evaluated on diverse Filipino datasets to address key NLP tasks, including Named Entity Recognition (NER), Part-of-Speech (POS) tagging, Dependency Parsing, and Text Summarization. Performance comparisons with the CalamanCy model were conducted using F1 Score, Precision, Recall, Compression Rate, and Keyword Overlap metrics. Results indicate that Calamancy outperforms FILLM in several aspects, demonstrating its effectiveness in processing Filipino text with improved linguistic comprehension and adaptability. This research contributes to the advancement of Filipino NLP applications by providing an optimized, efficient, and scalable language model tailored for local linguistic needs.
- Abstract(参考訳): 本研究では,フィリピン語を最適化した大規模言語モデルFiLLMを提案する。
SeaLLM-7B 2.5モデルに基づいて構築されたFiLLMは、タスク固有の性能を維持しながらメモリ効率を最適化するためにローランド適応(LoRA)ファインチューニングを利用する。
このモデルは、NER(Named Entity Recognition)、POS(Part-of-Speech)タグ付け(Part-of-Speech)、依存性解析(Dependency Parsing)、テキスト要約(Text Summarization)など、主要なNLPタスクに対応するために、さまざまなフィリピンのデータセットでトレーニングされ評価された。
CalamanCyモデルとの性能比較は、F1スコア、精度、リコール、圧縮率、キーワードオーバーラップのメトリクスを用いて行った。
その結果, キャラマンシーはFILLMより優れており, 言語理解と適応性が向上したフィリピン語テキストの処理に有効であることが示唆された。
本研究は、フィリピンのNLPアプリケーションの発展に寄与し、地域言語のニーズに合わせて最適化され、効率的でスケーラブルな言語モデルを提供する。
関連論文リスト
- Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。
本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。
以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文 参考訳(メタデータ) (2025-03-11T02:49:41Z) - Batayan: A Filipino NLP benchmark for evaluating Large Language Models [0.0]
Batayanは3つの主要な自然言語処理能力(NLP)にまたがる大規模言語モデル(LLM)を評価するために設計された総合的なベンチマークである。
我々の厳密でネイティブな話者主導のアノテーションプロセスは、フィリピンの複雑な形態的・統語的構造への流布と信頼を保証する。
論文 参考訳(メタデータ) (2025-02-19T07:03:15Z) - Investigating the Impact of Language-Adaptive Fine-Tuning on Sentiment Analysis in Hausa Language Using AfriBERTa [2.5055584842618175]
感情分析(SA)は、自然言語処理(NLP)において、テキストで表される感情を識別することで重要な役割を担っている。
本研究では, 言語適応ファインチューニング(LAFT)の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-19T11:52:46Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment
in Central Philippine Languages [8.64545246732563]
我々は,フィリピンの低資源言語における可読性評価のためのコーパスとベースラインモデルの拡張を目的としたイニシアチブの一環として,BasahaCorpusを導入・リリースする。
私たちは、Hiligaynon、Minasbate、Karay-a、Rinconadaで書かれた短編物語のコーパスをまとめました。
本稿では,家系木に言語を配置し,利用可能なトレーニングデータの量を増やす階層型言語間モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T21:05:20Z) - Improving Domain-Specific Retrieval by NLI Fine-Tuning [64.79760042717822]
本稿では、自然言語推論(NLI)データの微調整の可能性を調べ、情報検索とランキングを改善する。
コントラスト損失とNLIデータを利用した教師あり手法により細調整された単言語文エンコーダと多言語文エンコーダを併用する。
この結果から,NLIの微調整によりタスクおよび言語間のモデルの性能が向上し,単言語モデルと多言語モデルが改良される可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-06T12:40:58Z) - A Baseline Readability Model for Cebuano [0.0]
セブアーノ語の最初のベースライン可読性モデルを開発した。
セブアーノ語はフィリピンで2番目に多く使われている母語であり、約27.5万人が話者である。
論文 参考訳(メタデータ) (2022-03-31T17:49:11Z) - Visualizing the Relationship Between Encoded Linguistic Information and
Task Performance [53.223789395577796]
本稿では,Pareto Optimalityの観点から,符号化言語情報とタスクパフォーマンスの動的関係について検討する。
我々は、機械翻訳と言語モデリングという2つの一般的なNLPタスクの実験を行い、様々な言語情報とタスクパフォーマンスの関係について検討する。
実験結果から,NLPタスクには構文情報が有用であるのに対して,より構文情報の符号化が必ずしも優れたパフォーマンスをもたらすとは限らないことが示唆された。
論文 参考訳(メタデータ) (2022-03-29T19:03:10Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。