論文の概要: Aya Vision: Advancing the Frontier of Multilingual Multimodality
- arxiv url: http://arxiv.org/abs/2505.08751v1
- Date: Tue, 13 May 2025 17:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.687266
- Title: Aya Vision: Advancing the Frontier of Multilingual Multimodality
- Title(参考訳): Aya Vision: マルチリンガル・マルチモーダリティのフロンティア向上
- Authors: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker,
- Abstract要約: 高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。
また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。
我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 15.981889066681424
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.
- Abstract(参考訳): マルチモーダル言語モデルの構築は、視覚と言語モダリティの整合性、高品質な命令データのキュレーション、そしてビジョンが導入された時点で既存のテキストのみの機能の劣化を避けることなど、根本的な課題である。
これらの困難は、異なる言語でのマルチモーダルデータの必要性が既存のデータ不足を悪化させ、機械翻訳がしばしば意味を歪め、破滅的な忘れがより顕著になる多言語環境でさらに拡大される。
上記の課題に対処するために、データとモデリングの両方にまたがる新しい手法を導入する。
まず、高品質で多様な多言語マルチモーダル命令データをキュレートし、Aya Visionモデルが複数の言語にわたるマルチモーダル入力に対して自然で人為的な応答を生成できるようにする合成アノテーションフレームワークを開発する。
そこで本研究では,マルチモーダル生成性能を同時に向上しつつ,テキストのみの能力を効果的に保ちながら,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。
Aya-Vision-8BはQwen-2.5-VL-7B、Pixtral-12B、さらに大きなLlama-3.2-90B-Visionのような強力なマルチモーダルモデルと比較して最高性能を達成している。
Aya-Vision-32Bは、Momo-72BやLLaMA-3.2-90B-Visionの2倍以上の大きさのモデルより優れている。
我々の研究はマルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げると同時に、非常に高いパフォーマンスを実現する技術に関する洞察を提供する。
関連論文リスト
- DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。