論文の概要: Aya Vision: Advancing the Frontier of Multilingual Multimodality
- arxiv url: http://arxiv.org/abs/2505.08751v1
- Date: Tue, 13 May 2025 17:03:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.687266
- Title: Aya Vision: Advancing the Frontier of Multilingual Multimodality
- Title(参考訳): Aya Vision: マルチリンガル・マルチモーダリティのフロンティア向上
- Authors: Saurabh Dash, Yiyang Nan, John Dang, Arash Ahmadian, Shivalika Singh, Madeline Smith, Bharat Venkitesh, Vlad Shmyhlo, Viraat Aryabumi, Walter Beller-Morales, Jeremy Pekmez, Jason Ozuzu, Pierre Richemond, Acyr Locatelli, Nick Frosst, Phil Blunsom, Aidan Gomez, Ivan Zhang, Marzieh Fadaee, Manoj Govindassamy, Sudip Roy, Matthias Gallé, Beyza Ermis, Ahmet Üstün, Sara Hooker,
- Abstract要約: 高品質で多様な多言語マルチモーダル命令データをキュレートする合成アノテーションフレームワークを開発した。
また,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。
我々の研究は、マルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げる技術に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 15.981889066681424
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building multimodal language models is fundamentally challenging: it requires aligning vision and language modalities, curating high-quality instruction data, and avoiding the degradation of existing text-only capabilities once vision is introduced. These difficulties are further magnified in the multilingual setting, where the need for multimodal data in different languages exacerbates existing data scarcity, machine translation often distorts meaning, and catastrophic forgetting is more pronounced. To address the aforementioned challenges, we introduce novel techniques spanning both data and modeling. First, we develop a synthetic annotation framework that curates high-quality, diverse multilingual multimodal instruction data, enabling Aya Vision models to produce natural, human-preferred responses to multimodal inputs across many languages. Complementing this, we propose a cross-modal model merging technique that mitigates catastrophic forgetting, effectively preserving text-only capabilities while simultaneously enhancing multimodal generative performance. Aya-Vision-8B achieves best-in-class performance compared to strong multimodal models such as Qwen-2.5-VL-7B, Pixtral-12B, and even much larger Llama-3.2-90B-Vision. We further scale this approach with Aya-Vision-32B, which outperforms models more than twice its size, such as Molmo-72B and LLaMA-3.2-90B-Vision. Our work advances multilingual progress on the multi-modal frontier, and provides insights into techniques that effectively bend the need for compute while delivering extremely high performance.
- Abstract(参考訳): マルチモーダル言語モデルの構築は、視覚と言語モダリティの整合性、高品質な命令データのキュレーション、そしてビジョンが導入された時点で既存のテキストのみの機能の劣化を避けることなど、根本的な課題である。
これらの困難は、異なる言語でのマルチモーダルデータの必要性が既存のデータ不足を悪化させ、機械翻訳がしばしば意味を歪め、破滅的な忘れがより顕著になる多言語環境でさらに拡大される。
上記の課題に対処するために、データとモデリングの両方にまたがる新しい手法を導入する。
まず、高品質で多様な多言語マルチモーダル命令データをキュレートし、Aya Visionモデルが複数の言語にわたるマルチモーダル入力に対して自然で人為的な応答を生成できるようにする合成アノテーションフレームワークを開発する。
そこで本研究では,マルチモーダル生成性能を同時に向上しつつ,テキストのみの能力を効果的に保ちながら,破滅的忘れを緩和するクロスモーダルモデルマージ手法を提案する。
Aya-Vision-8BはQwen-2.5-VL-7B、Pixtral-12B、さらに大きなLlama-3.2-90B-Visionのような強力なマルチモーダルモデルと比較して最高性能を達成している。
Aya-Vision-32Bは、Momo-72BやLLaMA-3.2-90B-Visionの2倍以上の大きさのモデルより優れている。
我々の研究はマルチモーダルフロンティアにおける多言語的な進歩を前進させ、計算の必要性を効果的に曲げると同時に、非常に高いパフォーマンスを実現する技術に関する洞察を提供する。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Make Imagination Clearer! Stable Diffusion-based Visual Imagination for Multimodal Machine Translation [40.42326040668964]
本稿では,多モーダル大言語モデル (MLLM) に安定な拡散に基づくイマジネーションネットワークを導入し,各元文の画像を明示的に生成する。
我々は、生成した画像と原文との整合性を確保するために、強化学習による人間のフィードバックを構築する。
実験結果から,本モデルは既存のマルチモーダルMTとテキストのみのMTよりも優れていた。
論文 参考訳(メタデータ) (2024-12-17T07:41:23Z) - Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition [57.131546757903834]
Lyraはマルチモーダル能力を向上する効率的なMLLMであり、高度な長音声理解、音声理解、相互モダリティ効率、シームレスな音声対話などが含まれる。
Lyraは様々な視覚言語、視覚音声、音声言語のベンチマークで最先端のパフォーマンスを達成し、計算資源が少なく、訓練データも少ない。
論文 参考訳(メタデータ) (2024-12-12T17:50:39Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities [4.269326314400742]
マルチモーダル大言語モデル(MLLM)のための内適応アーキテクチャを導入する。
このアーキテクチャは、大きな言語モデル内の様々な深さで複数のマルチモーダルアダプタを組み込んで、テキスト指向のトランスフォーマー層との直接の相互作用を容易にする。
大規模な整列データを必要とする従来のフリーズ言語モデルとは異なり、提案アーキテクチャは小規模データセットにおいて優れた性能を実現することができる。
論文 参考訳(メタデータ) (2024-08-23T08:10:13Z) - VL-Mamba: Exploring State Space Models for Multimodal Learning [22.701028299912398]
本研究では,状態空間モデルに基づく多モーダル大規模言語モデルであるVL-Mambaを提案する。
具体的には、まず、LLamaやVicunaのようなトランスフォーマーベースのバックボーン言語モデルを、事前訓練されたMamba言語モデルに置き換える。
論文 参考訳(メタデータ) (2024-03-20T13:48:50Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。