論文の概要: MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs
- arxiv url: http://arxiv.org/abs/2508.05502v1
- Date: Thu, 07 Aug 2025 15:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.929265
- Title: MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs
- Title(参考訳): MELLA:低リソース言語MLLMの言語能力と文化的基盤
- Authors: Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi,
- Abstract要約: MLLM(Multimodal Large Language Models)は、高リソース言語において顕著な性能を示す。
しかし、その効果は低リソース言語の文脈において著しく低下する。
本稿では,各目標に合ったデータの収集をガイドするデュアルソース戦略を提案し,文化のためのネイティブなウェブアルトテキストと言語学のためのMLLM生成キャプションをソーシングする。
実験結果から,MELLAを微調整した後,MLLMバックボーン上の8言語に対して,汎用的な性能向上が得られた。
- 参考スコア(独自算出の注目度): 24.075526141969625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedness, both of which are crucial for serving low-resource language users effectively. To bridge this gap, in this study, we identify two significant objectives for a truly effective MLLM in low-resource language settings, namely 1) linguistic capability and 2) cultural groundedness, placing special emphasis on cultural awareness. To achieve these dual objectives, we propose a dual-source strategy that guides the collection of data tailored to each goal, sourcing native web alt-text for culture and MLLM-generated captions for linguistics. As a concrete implementation, we introduce MELLA, a multimodal, multilingual dataset. Experiment results show that after fine-tuning on MELLA, there is a general performance improvement for the eight languages on various MLLM backbones, with models producing "thick descriptions". We verify that the performance gains are from both cultural knowledge enhancement and linguistic capability enhancement. Our dataset can be found at https://opendatalab.com/applyMultilingualCorpus.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、高リソース言語において顕著な性能を示す。
しかし、その効果は低リソース言語の文脈において著しく低下する。
現在の多言語拡張法は、しばしばテキストモダリティに制限されるか、機械翻訳にのみ依存する。
このようなアプローチは,基本言語能力の獲得と「細い記述」の創出に有効であるが,多モーダルな情報提供と文化的基盤性の重要性は無視され,いずれも低リソース言語利用者の効果的な提供に不可欠である。
このギャップを埋めるために、本稿では、低リソース言語設定における真に効果的なMLLMの2つの重要な目標、すなわち、特定する。
1)言語能力
2文化の根本性、特に文化意識を重視したもの。
これら2つの目的を達成するために,各目標に適したデータの収集をガイドするデュアルソース戦略を提案し,文化のためのネイティブウェブアルトテキストと言語学のためのMLLMキャプションをソーシングする。
具体的な実装として,マルチモーダルな多言語データセットであるMELLAを紹介する。
実験結果から,MELLAを微調整した結果,MLLMバックボーンの8言語に対して,モデルが「厚み記述」を生成することにより,汎用的な性能向上が得られた。
文化知識の向上と言語能力の向上の両面から得られる成果が検証された。
私たちのデータセットはhttps://opendatalab.com/applyMultilingualCorpusで参照できます。
関連論文リスト
- How does a Multilingual LM Handle Multiple Languages? [0.0]
本研究では,多言語理解,意味表現,言語間知識伝達の能力について批判的に検討する。
コサイン類似性を用いた一貫性のための多言語単語埋め込みの分析により意味的類似性を評価する。
BLOOM-1.7B と Qwen2 を Named Entity Recognition と文類似性タスクを通して調べ、それらの言語構造を理解する。
論文 参考訳(メタデータ) (2025-02-06T18:08:14Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Maya: An Instruction Finetuned Multilingual Multimodal Model [13.685597072939565]
視覚言語学習のためのオープンソースのマルチモーダルモデルであるMayaを紹介する。
1)LLaVA事前学習データセットに基づく8言語における多言語画像テキスト事前学習データセット,2)LLaVAデータセット内の毒性の徹底的な分析,続いて8言語にわたる新たな毒性のないバージョンの作成,3)これらの言語をサポートする多言語画像テキストモデル,そして視覚言語タスクにおける文化的・言語的理解の強化。
論文 参考訳(メタデータ) (2024-12-10T01:57:17Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Adapting Multilingual LLMs to Low-Resource Languages with Knowledge Graphs via Adapters [3.7273829129985305]
本稿では,言語から多言語大モデル(LLM)へのグラフ知識の統合について検討する。
我々は、感情分析(SA)および名前付きエンティティ認識(NER)における低リソース言語(LRL)の性能向上のために、言語固有のアダプタを使用している。
構造化グラフ知識が,SA および NER における LRL の多言語 LLM の性能に与える影響を評価する。
論文 参考訳(メタデータ) (2024-07-01T15:56:24Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Teaching LLMs to Abstain across Languages via Multilingual Feedback [40.84205285309612]
多言語フィードバックは,多様な言語,文化,コミュニティ間の知識ギャップを識別する上で有効であることを示す。
大規模な実験により、多言語フィードバックアプローチは、様々な強いベースラインよりも優れていることが示された。
さらに分析したところ、多言語フィードバックは多言語話者に役立てるための効果的かつ公平な回避戦略であることがわかった。
論文 参考訳(メタデータ) (2024-06-22T21:59:12Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Adapters for Enhanced Modeling of Multilingual Knowledge and Text [54.02078328453149]
言語モデルは多言語言語モデル(MLLM)に拡張された。
知識グラフは、注意深いキュレーションを必要とし、少数の高リソース言語でのみ利用可能である、明示的な三重形式で事実を含む。
我々は,MLLMを多言語知識グラフ(MLKG)からの知識で拡張し,言語や知識グラフのタスクに多くの言語で取り組むことを提案する。
論文 参考訳(メタデータ) (2022-10-24T21:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。