論文の概要: Parameter Efficient Multimodal Instruction Tuning for Romanian Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.14926v1
- Date: Tue, 16 Dec 2025 21:36:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.790184
- Title: Parameter Efficient Multimodal Instruction Tuning for Romanian Vision Language Models
- Title(参考訳): ルーマニア視覚言語モデルのためのパラメータ効率的なマルチモーダルインストラクションチューニング
- Authors: George-Andrei Dima, Dumitru-Clementin Cercel,
- Abstract要約: ルーマニアのマルチモーダルNLP資源ギャップの低減に寄与する。
広く知られているFlickr30kデータセットをルーマニア語に翻訳し、視覚的な質問応答のためにさらに拡張します。
ルーマニアの視覚的質問応答に対して,オープンソースのVLMを微調整することで,データセットの有用性を実証する。
- 参考スコア(独自算出の注目度): 2.1990085634399428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Focusing on low-resource languages is an essential step toward democratizing generative AI. In this work, we contribute to reducing the multimodal NLP resource gap for Romanian. We translate the widely known Flickr30k dataset into Romanian and further extend it for visual question answering by leveraging open-source LLMs. We demonstrate the usefulness of our datasets by fine-tuning open-source VLMs on Romanian visual question answering. We select VLMs from three widely used model families: LLaMA 3.2, LLaVA 1.6, and Qwen2. For fine-tuning, we employ the parameter-efficient LoRA method. Our models show improved Romanian capabilities in visual QA, as well as on tasks they were not trained on, such as Romanian image description generation. The seven-billion-parameter Qwen2-VL-RoVQA obtains top scores on both tasks, with improvements of +6.05% and +2.61% in BERTScore F1 over its original version. Finally, the models show substantial reductions in grammatical errors compared to their original forms, indicating improvements not only in language understanding but also in Romanian fluency.
- Abstract(参考訳): 低リソース言語にフォーカスすることは、生成的AIを民主化するための重要なステップである。
本研究では,ルーマニアのマルチモーダルNLP資源ギャップの低減に寄与する。
広く知られているFlickr30kデータセットをルーマニア語に翻訳し、さらにオープンソースのLLMを活用して視覚的な質問応答に拡張する。
ルーマニアの視覚的質問応答に対して,オープンソースのVLMを微調整することで,データセットの有用性を実証する。
LLaMA 3.2, LLaVA 1.6, Qwen2 の3つのモデルファミリーから VLM を選択する。
微調整にはパラメータ効率のよいLoRA法を用いる。
我々のモデルでは、視覚的QAにおけるルーマニアの能力の向上と、訓練を受けていないタスク、例えばルーマニアの画像記述生成が示されています。
7ビリオンパラメータのQwen2-VL-RoVQAは2つのタスクのトップスコアを獲得し、BERTScore F1の+6.05%と+2.61%の改善が加えられた。
最後に、これらのモデルは元の形式に比べて文法上の誤りが大幅に減少し、言語理解だけでなくルーマニアの流布にも改善が見られた。
関連論文リスト
- Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - RoQLlama: A Lightweight Romanian Adapted Language Model [2.1892046440619626]
トレーニングにQLoRAを用いることで,計算機資源の削減という課題に対処する。
我々は,量子化LDMであるRoQLlama-7bをリリースした。
ルーマニア語で単一選択の医療質問を含む新しいルーマニア語データセットRoMedQAを紹介した。
論文 参考訳(メタデータ) (2024-10-05T19:14:11Z) - Amharic LLaMA and LLaVA: Multimodal LLMs for Low Resource Languages [0.0]
大規模言語モデル(LLM)は、自然言語処理タスクにおいて驚くほどの習熟度を示している。
LLMは、トレーニングデータが少ないため、低リソースの言語でよく機能するのに苦労することが多い。
本研究では,世界5000万人以上の人々が話す言語であるAmharicを話すためのLLaMA-2の訓練について検討する。
論文 参考訳(メタデータ) (2024-03-11T01:04:36Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially
Code-Switched Data [26.38449396649045]
問合せや文書が言語によって異なる場合,ゼロショットローダの有効性は低下する。
そこで我々は,人工的なコード切替データに基づいてランキングモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2023-05-09T09:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。