論文の概要: Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework
- arxiv url: http://arxiv.org/abs/2602.14073v2
- Date: Tue, 17 Feb 2026 10:14:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 13:57:33.627044
- Title: Annotation-Efficient Vision-Language Model Adaptation to the Polish Language Using the LLaVA Framework
- Title(参考訳): LLaVAフレームワークを用いたポーランド語への表記効率の良い視覚言語モデル適応
- Authors: Grzegorz Statkiewicz, Alicja Dobrzeniecka, Karolina Seweryn, Aleksandra Krasnodębska, Karolina Piosek, Katarzyna Bogusz, Sebastian Cygert, Wojciech Kusa,
- Abstract要約: 視覚言語モデル(VLM)は英語中心のデータに基づいて訓練され、他の言語や文化的な文脈での性能を制限する。
我々は、LLaVA-Next方法論を再現し、適応し、ポーランドのVLMのセットを作成します。
我々は,LLaVA-1.6-una-13Bをポーランド適応MMBenchで+9.5%改善し,高い品質の字幕を生成評価に用いた。
- 参考スコア(独自算出の注目度): 38.98519875112922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most vision-language models (VLMs) are trained on English-centric data, limiting their performance in other languages and cultural contexts. This restricts their usability for non-English-speaking users and hinders the development of multimodal systems that reflect diverse linguistic and cultural realities. In this work, we reproduce and adapt the LLaVA-Next methodology to create a set of Polish VLMs. We rely on a fully automated pipeline for translating and filtering existing multimodal datasets, and complement this with synthetic Polish data for OCR and culturally specific tasks. Despite relying almost entirely on automatic translation and minimal manual intervention to the training data, our approach yields strong results: we observe a +9.5% improvement over LLaVA-1.6-Vicuna-13B on a Polish-adapted MMBench, along with higher-quality captions in generative evaluations, as measured by human annotators in terms of linguistic correctness. These findings highlight that large-scale automated translation, combined with lightweight filtering, can effectively bootstrap high-quality multimodal models for low-resource languages. Some challenges remain, particularly in cultural coverage and evaluation. To facilitate further research, we make our models and evaluation dataset publicly available.
- Abstract(参考訳): ほとんどの視覚言語モデル(VLM)は英語中心のデータに基づいて訓練されており、他の言語や文化的な文脈での性能を制限している。
これにより、非英語利用者のユーザビリティが制限され、多様な言語的・文化的現実を反映したマルチモーダルシステムの開発が妨げられる。
本研究では,LLaVA-Next法を再現し,ポーランドのVLMの集合を生成する。
既存のマルチモーダルデータセットの翻訳とフィルタリングには,完全に自動化されたパイプラインを頼りにしています。
LLaVA-1.6-Vicuna-13B をポーランド適応 MMBench で+9.5% 改善し, 言語的正当性でヒトのアノテータが測定したように, 生成的評価における高品質なキャプションも高めている。
これらの結果は、大規模自動翻訳と軽量なフィルタリングを組み合わせることで、低リソース言語のための高品質なマルチモーダルモデルを効果的にブートストラップできることを示している。
いくつかの課題は、特に文化的カバレッジと評価において残されている。
さらなる研究を容易にするため、我々のモデルと評価データセットを公開している。
関連論文リスト
- Multilingual VLM Training: Adapting an English-Trained VLM to French [0.0]
本稿では、英語学習されたVLMを異なる言語に適応させる際の課題について考察する。
翻訳に基づくパイプライン、LoRAファインタニング、および視覚適応と言語適応を分離する2段階のファインタニング戦略を検討する。
その結果,データセット翻訳は多言語VLMの性能において依然として大きなボトルネックとなっていることが明らかとなった。
論文 参考訳(メタデータ) (2025-12-11T06:38:51Z) - Aligning LLMs for Multilingual Consistency in Enterprise Applications [39.24743635297897]
大規模言語モデル(LLM)は、グローバルなエンタープライズアプリケーションには信頼できないままである。
細調整LDMのための実用的なバッチワイドアライメント戦略を提案する。
このアプローチは、英語のパフォーマンス、モデル推論、検索品質を損なうことなく、英語以外の精度を最大23.9%向上させる。
論文 参考訳(メタデータ) (2025-09-28T05:51:22Z) - The role of synthetic data in Multilingual, Multi-cultural AI systems: Lessons from Indic Languages [18.087937520281965]
インドの13言語にまたがる950万のデータポイントからなる大規模合成命令追従データセットであるUpdeshを紹介した。
自動メトリクスと人的アノテーションの両方を10k評価に取り入れた総合的な評価は、生成されたデータが高品質であることを示している。
Updeshでトレーニングされたモデルは、生成タスクにおいて一貫して大きな利益を達成し、多重選択スタイルのNLUタスクにおいて競争力を維持する。
論文 参考訳(メタデータ) (2025-09-25T15:13:00Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。
本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。
以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文 参考訳(メタデータ) (2025-03-11T02:49:41Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。