論文の概要: Phoenix-VL 1.5 Medium Technical Report
- arxiv url: http://arxiv.org/abs/2605.10391v1
- Date: Mon, 11 May 2026 11:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.770065
- Title: Phoenix-VL 1.5 Medium Technical Report
- Title(参考訳): Phoenix-VL 1.5 中間技術報告
- Authors: Team Phoenix, :, Arka Ray, Askar Ali Mohamed Jawad, Biondi Lee, Elijah Seah, Eva Lim, Fiona Teo, Grace Toh, Guang Xiang Teo, Jun En Tan, Jia Hui Bong, Jiale Wang, Jonathan Ng, Justin Tan, Kai Zhe Yew, Matthew Ong, Shun Yi Yeo, Wen Jett Lam, Wen Xiu Tan, Ze Yu Zhang, Gee Wah Ng, Chee Wee Ang, Mistral AI, :, Adrien Sadé, Guillaume Kunsch, Jia Sin Loh, Nicolas Schuhl, Rupert Menneer, Umar Jamil, Vincent Maladière, Yimu Pan,
- Abstract要約: Phoenix-VL 1.5 Mediumは123Bパラメータのネイティブなマルチモーダルおよび多言語基盤モデルであり、地域言語やシンガポールの文脈に適応している。
Phoenix-VL 1.5 Mediumはシンガポールのマルチモーダル、合法、政府政策のベンチマークで最先端のパフォーマンスを達成した。
本稿では,局所的な知識ベンチマークと,制度的に整合したモデル行動と安全性の枠組みを含む新しい評価スイートを紹介する。
- 参考スコア(独自算出の注目度): 7.35688970141972
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Phoenix-VL 1.5 Medium, a 123B-parameter natively multimodal and multilingual foundation model, adapted to regional languages and the Singapore context. Developed as a sovereign AI asset, it demonstrates that deep domain adaptation can be achieved with minimal degradation to broad-spectrum intelligence and alignment. Continued pretraining was performed on Mistral Medium 3.1 using a localized 1-trillion tokens multimodal corpus, followed by a 250-billion tokens long-context extension phase. Subsequent post-training incorporated a novel human-annotated Singapore multimodal dataset and curated textual corpus on Singapore culture, knowledge, and legislation, totaling 22-billion tokens. An additional 5 billion tokens of model alignment was performed through Online Direct Preference Optimization. Phoenix-VL 1.5 Medium achieves state-of-the-art performance for its size on Singapore multimodal, legal, and government policy benchmarks while remaining globally competitive on general multimodal intelligence, multilingual, and STEM benchmarks. We also introduce a novel evaluation suite encompassing localized knowledge benchmarks and an institutionally aligned model behavior and safety framework. We report the data curation principles, training methodology, and highlight benchmark and inference performance.
- Abstract(参考訳): Phoenix-VL 1.5 Mediumは123Bパラメータのネイティブなマルチモーダルおよび多言語基盤モデルであり、地域言語やシンガポールの文脈に適応する。
主権的なAI資産として開発されたこの手法は、広帯域のインテリジェンスとアライメントに最小限の劣化を伴って、深いドメイン適応を実現することができる。
Mistral Medium 3.1では、局所化した1-trillionトークンとマルチモーダルコーパスを使用し、250-billionトークンと長文拡張フェーズで事前トレーニングを行った。
その後の訓練では、シンガポールの文化、知識、法律に関する新しい人名付きマルチモーダルデータセットとキュレートされたテキストコーパスが組み込まれ、合計22ビリオンのトークンが加えられた。
さらに50億のモデルアライメントトークンがオンラインダイレクトパラメータ最適化によって実行された。
Phoenix-VL 1.5 Mediumはシンガポールのマルチモーダル、合法、政府政策ベンチマークで最先端のパフォーマンスを達成しつつ、一般的なマルチモーダルインテリジェンス、マルチリンガル、STEMベンチマークで世界的競争力を維持している。
また、局所的な知識ベンチマークと、制度的に整合したモデル行動と安全性の枠組みを含む新しい評価スイートについても紹介する。
データキュレーションの原則,トレーニング方法論,ベンチマークと推論のパフォーマンスの強調について報告する。
関連論文リスト
- State-of-the-Art Arabic Language Modeling with Sparse MoE Fine-Tuning and Chain-of-Thought Distillation [0.030957264235843676]
Arabic-DeepSeek-R1 はアプリケーション駆動のオープンソース アラビア LLM で、疎い MoE バックボーンを活用し、表現不足の言語におけるデジタルエクイティギャップに対処する。
我々の4段階のCoT蒸留方式は、アラビア語固有の言語的検証と地域倫理規範を3億2200万トンの汚染制御されたアラビア語と英語の訓練混合物に統合します。
論文 参考訳(メタデータ) (2026-04-07T19:58:26Z) - HinTel-AlignBench: A Framework and Benchmark for Hindi-Telugu with English-Aligned Samples [3.3715057550177145]
インド語の視覚言語モデル(VLM)を評価し,それを英語のパフォーマンスと比較するためのスケーラブルなフレームワークを提案する。
このフレームワークを使ってHinTel-AlignBenchを生成する。HindiとTeluguのさまざまなソースから英語対応のサンプルを描画するベンチマークだ。
ヒンディー語では平均8.3ポイント、テルグ語では5.5ポイントである。
論文 参考訳(メタデータ) (2025-11-19T07:11:00Z) - The NTNU System at the S&I Challenge 2025 SLA Open Track [10.11220261280201]
スコア融合戦略を用いて,W2VとPhi-4マルチモーダル大言語モデル(MLLM)を統合するシステムを提案する。
提案システムは,Speak & Improve Challenge 2025の公式テストセットにおいて,0.375の根平均二乗誤差(RMSE)を達成する。
比較すると、トップランク、サードランク、オフィシャルベースラインのRMSEはそれぞれ0.364、0.384、0.444である。
論文 参考訳(メタデータ) (2025-06-05T15:09:23Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation [1.9639956888747314]
本稿では,大規模言語モデル(msLLM)の適応のための2つのアプローチを提案することによって,人工知能に寄与する。
工学的な応用として、これらの手法は、ドメイン固有の極低リソース設定において、シンハラ、タミル、英語(6つの言語対)のNTTシステムで実装される。
実験の結果,これらの手法は,標準の単一段階微調整ベースラインに比べて平均+1.47バイリンガル評価アンダースタディ(BLEU)スコアで翻訳性能を向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-28T16:30:28Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [191.7830199016589]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。