論文の概要: Large Multimodal Models for Low-Resource Languages: A Survey
- arxiv url: http://arxiv.org/abs/2502.05568v1
- Date: Sat, 08 Feb 2025 13:29:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 18:57:49.955086
- Title: Large Multimodal Models for Low-Resource Languages: A Survey
- Title(参考訳): 低リソース言語のための大規模マルチモーダルモデル:調査
- Authors: Marian Lupascu, Ana-Cristina Rogoz, Mihai Sorin Stupariu, Radu Tudor Ionescu,
- Abstract要約: 我々は,LMM(Large Multimodal Model)を低リソース(LR)言語に適応させる手法を体系的に分析する。
我々は、限られたデータと計算資源の課題に研究者がどう取り組むかにおいて、重要なパターンを特定する。
- 参考スコア(独自算出の注目度): 21.076302839562825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this survey, we systematically analyze techniques used to adapt large multimodal models (LMMs) for low-resource (LR) languages, examining approaches ranging from visual enhancement and data creation to cross-modal transfer and fusion strategies. Through a comprehensive analysis of 106 studies across 75 LR languages, we identify key patterns in how researchers tackle the challenges of limited data and computational resources. We find that visual information often serves as a crucial bridge for improving model performance in LR settings, though significant challenges remain in areas such as hallucination mitigation and computational efficiency. We aim to provide researchers with a clear understanding of current approaches and remaining challenges in making LMMs more accessible to speakers of LR (understudied) languages. We complement our survey with an open-source repository available at: https://github.com/marianlupascu/LMM4LRL-Survey.
- Abstract(参考訳): 本研究では,低リソース(LR)言語に対する大規模マルチモーダルモデル(LMM)の適用手法を体系的に分析し,視覚的拡張やデータ生成から相互モーダル移動,融合戦略に至るまでのアプローチを検討した。
75のLR言語にわたる106の研究を包括的に分析することにより、研究者が限られたデータと計算資源の課題にどう取り組むかにおいて重要なパターンを特定する。
視覚情報はしばしばLR設定におけるモデル性能向上のための重要なブリッジとして機能するが、幻覚緩和や計算効率などの領域では大きな課題が残っている。
本研究の目的は,LMMをLR(Underudied)言語の話者に使いやすくする上での課題として,現状のアプローチを明確に理解することにある。
私たちはこの調査を、https://github.com/marianlupascu/LMM4LRL-Survey.comで利用可能なオープンソースリポジトリで補完しています。
関連論文リスト
- Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models [22.796496516709514]
本調査は,RLに基づく多モーダル大言語モデルの推論の最近の進歩を体系的にレビューする。
我々は、RLの2つの主要なパラダイム、--value-free と value-based method を強調し、RLが推論能力をどのように強化するかを分析する。
ベンチマークデータセット、評価プロトコル、既存の制限について概観する。
論文 参考訳(メタデータ) (2025-04-30T03:14:28Z) - Bridging the Linguistic Divide: A Survey on Leveraging Large Language Models for Machine Translation [33.08089616645845]
大規模言語モデル(LLM)の出現は機械翻訳(MT)の景観を大きく変えた。
我々は、アンダーリソース設定への効果的な適応を可能にする、少数ショットプロンプト、クロスランガル転送、パラメータ効率の微調整などの手法を解析する。
幻覚, 評価の不整合, 遺伝バイアスなどの持続的課題について検討するとともに, 翻訳品質向上のためのLCM駆動メトリクスの評価を行った。
論文 参考訳(メタデータ) (2025-04-02T17:26:40Z) - Distributed LLMs and Multimodal Large Language Models: A Survey on Advances, Challenges, and Future Directions [1.3638337521666275]
言語モデル (LM) は、テキストなどの大規模データセットに基づいて単語列の確率を推定することにより、言語パターンを予測する機械学習モデルである。
より大きなデータセットは一般的にLM性能を高めるが、計算能力とリソースの制約のためスケーラビリティは依然として課題である。
近年の研究では、分散トレーニングと推論を可能にする分散型技術の開発に焦点が当てられている。
論文 参考訳(メタデータ) (2025-03-20T15:18:25Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Personalized Multimodal Large Language Models: A Survey [127.9521218125761]
マルチモーダル大言語モデル(MLLM)は、最先端の性能と複数のデータモダリティを統合する能力により、ますます重要になっている。
本稿では,パーソナライズされたマルチモーダルな大規模言語モデルに関する包括的調査を行い,そのアーキテクチャ,トレーニング方法,アプリケーションに焦点をあてる。
論文 参考訳(メタデータ) (2024-12-03T03:59:03Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Data Augmentation using Large Language Models: Data Perspectives, Learning Paradigms and Challenges [47.45993726498343]
データ強化(DA)は、データ収集を必要とせずにトレーニング例を多様化することにより、モデルパフォーマンスを向上させる重要な手法として登場した。
本調査では,大規模言語モデル(LLM)がDAに与える影響,特に自然言語処理(NLP)以降の文脈において,それらが持つ固有の課題と機会に対処する。
論文 参考訳(メタデータ) (2024-03-05T14:11:54Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Had enough of experts? Quantitative knowledge retrieval from large language models [4.091195951668217]
大規模言語モデル(LLM)は、説得力のある自然言語配列を生成する能力について広く研究されている。
我々は、専門家のような事前知識を抽出し、欠落したデータを出力することで、LLMを活用してベイズモデルを強化するフレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-12T16:32:37Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - A Little Pretraining Goes a Long Way: A Case Study on Dependency Parsing
Task for Low-resource Morphologically Rich Languages [14.694800341598368]
低リソース環境における形態素リッチ言語(MRL)の依存性解析に着目する。
これらの課題に対処するために,プリトレーニングのための簡単な補助タスクを提案する。
提案手法の有効性を評価するため,低リソース環境下で10個のMRL実験を行った。
論文 参考訳(メタデータ) (2021-02-12T14:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。