論文の概要: Multilingual and Multimodal LLMs in the Wild: Building for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2605.17152v1
- Date: Sat, 16 May 2026 20:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.710384
- Title: Multilingual and Multimodal LLMs in the Wild: Building for Low-Resource Languages
- Title(参考訳): 野生におけるマルチリンガルおよびマルチモーダルLLM:低リソース言語のための構築
- Authors: Firoj Alam, Shammur Absar Chowdhury, Enamul Hoque Prince,
- Abstract要約: 本チュートリアルでは, テキスト, 音声, 視覚の多言語多義性に関するこの新たな研究領域について概説する。
低コストなデータ作成/キュレーション、トリモーダルアライメントのためのアダプタスタック、英語以外の文化認識評価について取り上げる。
コンテンツはインタラクティブなハーフデイチュートリアルとして提供され、低リソースの言語設定で多言語でマルチモーダルAIに取り組んでいる研究者や実践者向けにデザインされる。
- 参考スコア(独自算出の注目度): 15.84874997729878
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multimodal LLMs are evolving from vision-language to tri-modality that see, hear, and read, yet pipelines and benchmarks remain English-centric and compute-heavy. The tutorial offers an overview of this emerging research area for multilingual multimodality across text, speech, and vision under limited data/compute budgets, synthesizing foundations, recent multilingual models (PALO, Maya), speech-text LLMs. We cover low-cost data creation/curation; adapter stacks for tri-modal alignment; culture-aware evaluation beyond English and hands on resources for fine-tuning a compact multilingual VLM and wiring a speech->text->LLM pipeline. The content will be delivered as an interactive half-day tutorial, designed for researchers and practitioners working on multilingual, multimodal AI in low-resource language settings.
- Abstract(参考訳): マルチモーダル LLM は、視覚言語から、聞き取り、読み取る三つのモダリティへと進化していますが、パイプラインとベンチマークは、英語中心で計算量の多いままです。
このチュートリアルでは、限られたデータ/計算予算、合成基盤、最近の多言語モデル(PALO、Maya)、音声-テキスト LLM の下で、テキスト、スピーチ、ビジョンをまたいだ多言語多言語性の研究領域の概要が紹介されている。
我々は、低コストなデータ作成/キュレーション、トリモーダルアライメントのためのアダプタスタック、英語以外の文化認識評価、コンパクトな多言語VLMの微調整、音声->text->LLMパイプラインの配線のためのリソースなどについて取り上げる。
コンテンツはインタラクティブなハーフデイチュートリアルとして提供され、低リソースの言語設定で多言語でマルチモーダルAIに取り組んでいる研究者や実践者向けにデザインされる。
関連論文リスト
- DiM\textsuperscript{3}: Bridging Multilingual and Multimodal Models via Direction- and Magnitude-Aware Merging [60.709970092170074]
方向認識型マルチモーダルマージ(DiM3)を提案する。
LLaVAとQwenベースのバックボーンをまたいだ57言語をカバーする、テキストのみおよびビジョン言語設定のマルチ言語ベンチマークの実験。
論文 参考訳(メタデータ) (2026-05-13T03:50:54Z) - Low-Resource, High-Impact: Building Corpora for Inclusive Language Technologies [11.52881045684005]
このチュートリアルは、多言語および低リソース言語を扱うNLP実践者、研究者、開発者向けに設計されている。
参加者は、表現不足の言語のためのエンドツーエンドのNLPパイプラインを構築するための実用的なツールキットを使い果たします。
論文 参考訳(メタデータ) (2025-12-16T16:44:17Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。
我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。
本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-24T07:51:42Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。