論文の概要: "Înţelegi Româneşte?'' A Recipe for Romanian Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.31401v2
- Date: Mon, 01 Jun 2026 04:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.922803
- Title: "Înţelegi Româneşte?'' A Recipe for Romanian Vision-Language Models
- Title(参考訳): 「ルーマニアの視覚・言語モデルのためのレシピ」
- Authors: Mihai Masala, Marius Leordeanu, Mihai Dascalu, Traian Rebedea,
- Abstract要約: ルーマニア語のための言語固有の視覚言語モデル(VLM)を構築するための体系的研究について述べる。
我々は、確立した英語VLMトレーニングと評価コーパスをルーマニア語に翻訳し、テキストアノテーションや画像内テキストに機械翻訳を適用した。
このデータを用いて、様々なスケールと事前学習の視覚バックボーンの寄与を分離するために、一連のVLMを訓練し、アブレーションする。
また、ルーマニアの日常シーンに根ざした文化的にネイティブな評価セットであるHolaVQAをキュレートする。
- 参考スコア(独自算出の注目度): 7.120569645707792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) largely follow the text-only LLM trajectory, excelling on English benchmarks but sharply degrading on low-resource languages, where neither large-scale image-text corpora nor culturally grounded evaluations exist. We present a systematic study of building a language-specific VLM for Romanian, covering the full pipeline from data construction to architectural choices. We translate established English VLM training and evaluation corpora into Romanian, applying machine translation to textual annotations and to in-image text, preserving visual grounding while adapting the textual content. Using this data, we train and ablate a series of VLMs to isolate the contribution of (i) vision backbones of varying scale and pretraining, (ii) language backbones from multilingual to Romanian-adapted LLMs, and (iii) OCR-style image-text data. We further curate HoraVQA, a culturally native evaluation set grounded in Romanian everyday scenes. Romanian-adapted VLMs consistently outperform their same-sized counterparts and, across all evaluated benchmarks, even surpass models from the next larger size category.
- Abstract(参考訳): Vision-Language Models (VLM) は主にテキストのみの LLM 軌跡に従っており、英語のベンチマークでは優れているが、大規模な画像テキストコーパスや文化的根拠のある評価が存在しない低リソース言語では著しく劣化している。
ルーマニア語のための言語固有のVLMを構築するための体系的研究を行い、データ構築からアーキテクチャ選択までのパイプライン全体を網羅する。
我々は、確立した英語VLMトレーニングと評価コーパスをルーマニア語に翻訳し、テキストアノテーションと画像内テキストに機械翻訳を適用し、テキストコンテンツに適応しながら視覚的グラウンドティングを保存する。
このデータを使用して、一連のVLMをトレーニングし、アブレーションして、コントリビューションを分離する。
一 様々なスケールの視覚バックボーン及び事前訓練
(ii)多言語からルーマニア適応LLMまでの言語バックボーン
(iii)OCRスタイルの画像テキストデータ。
さらに、ルーマニアの日常シーンに根ざした文化的にネイティブな評価セットであるHolaVQAをキュレートする。
ルーマニアに適応したVLMは、同じ大きさのVLMを一貫して上回り、評価されたすべてのベンチマークにおいて、次のより大きなサイズカテゴリのモデルよりもはるかに上回っている。
関連論文リスト
- TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - A Culturally-Rich Romanian NLP Dataset from "Who Wants to Be a Millionaire?" Videos [44.99833362998488]
大きな言語モデル(LLM)は、言語や文化の文脈で様々なパフォーマンスを示す。
本研究は,ルーマニアのゲームショー "Who Wants to Be a Millionaire?
論文 参考訳(メタデータ) (2025-06-06T11:21:38Z) - "Vorbeşti Româneşte?" A Recipe to Train Powerful Romanian LLMs with English Instructions [40.64721381920061]
ルーマニア語用にカスタマイズされたオープンソースのLLMを収集、翻訳し、評価し、リリースするのはこれが初めてです。
我々は,RoLLMsの有用性と高い性能について,各ボードにまたがって最先端の結果を得ることによって論じる。
論文 参考訳(メタデータ) (2024-06-26T11:39:51Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Room-Across-Room: Multilingual Vision-and-Language Navigation with Dense
Spatiotemporal Grounding [75.03682706791389]
新しいビジョン・アンド・ランゲージ・ナビゲーション(VLN)データセットであるRoom-Across-Room(RxR)を紹介する。
RxRは多言語(英語、ヒンディー語、テルグ語)で、他のVLNデータセットよりも大きい(パスと命令がより多い)。
これはVLNにおける言語の役割を強調し、パスにおける既知のバイアスに対処し、可視化されたエンティティへのより多くの参照を引き出す。
論文 参考訳(メタデータ) (2020-10-15T18:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。