論文の概要: Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
- arxiv url: http://arxiv.org/abs/2510.13795v1
- Date: Wed, 15 Oct 2025 17:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.799581
- Title: Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully Open MLLMs
- Title(参考訳): Bee: 高度なオープンMLLMをアンロックするための高品質コーパスとフルスタックスイート
- Authors: Yi Zhang, Bolin Ni, Xin-Sheng Chen, Heng-Rui Zhang, Yongming Rao, Houwen Peng, Qinglin Lu, Han Hu, Meng-Hao Guo, Shi-Min Hu,
- Abstract要約: Honey-Data-15Mは、約1500万のQAペアからなる新しいSFTデータセットである。
データキュレーションパイプラインであるHoneyPipeとその基盤となるフレームワークであるDataStudioは、データキュレーションのための透過的で適応可能な方法論を提供する。
実験の結果、Bee-8Bは完全にオープンなMLLMのための新しい最先端(SOTA)を確立し、InternVL3.5-8Bのような最近のセミオープンモデルに匹敵する性能を実現している。
- 参考スコア(独自算出の注目度): 57.51026028687215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fully open multimodal large language models (MLLMs) currently lag behind proprietary counterparts, primarily due to a significant gap in data quality for supervised fine-tuning (SFT). Existing open-source datasets are often plagued by widespread noise and a critical deficit in complex reasoning data, such as Chain-of-Thought (CoT), which hinders the development of advanced model capabilities. Addressing these challenges, our work makes three primary contributions. First, we introduce Honey-Data-15M, a new SFT dataset comprising approximately 15 million QA pairs, processed through multiple cleaning techniques and enhanced with a novel dual-level (short and long) CoT enrichment strategy. Second, we introduce HoneyPipe, the data curation pipeline, and its underlying framework DataStudio, providing the community with a transparent and adaptable methodology for data curation that moves beyond static dataset releases. Finally, to validate our dataset and pipeline, we train Bee-8B, an 8B model on Honey-Data-15M. Experiments show that Bee-8B establishes a new state-of-the-art (SOTA) for fully open MLLMs, achieving performance that is competitive with, and in some cases surpasses, recent semi-open models such as InternVL3.5-8B. Our work delivers to the community a suite of foundational resources, including: the Honey-Data-15M corpus; the full-stack suite comprising HoneyPipe and DataStudio; training recipes; an evaluation harness; and the model weights. This effort demonstrates that a principled focus on data quality is a key pathway to developing fully open MLLMs that are highly competitive with their semi-open counterparts.
- Abstract(参考訳): 完全にオープンなマルチモーダルな大規模言語モデル(MLLM)は、主に教師付き微調整(SFT)のデータ品質が大幅に低下していることから、プロプライエタリな言語モデルよりも遅れている。
既存のオープンソースデータセットは、しばしば広範囲にわたるノイズと、高度なモデル機能の開発を妨げるChain-of-Thought (CoT)のような複雑な推論データに致命的な欠陥に悩まされている。
これらの課題に対処するため、私たちの仕事は3つの主要な貢献をします。
まず、およそ1500万のQAペアからなる新しいSFTデータセットであるHoney-Data-15Mを紹介し、複数のクリーニング技術を通して処理し、新しいデュアルレベル(短長)のCoTエンリッチメント戦略で強化する。
次に、データキュレーションパイプラインであるHoneyPipeと、その基盤となるフレームワークであるDataStudioを紹介します。
最後に、データセットとパイプラインを検証するために、Honey-Data-15M上で8BモデルであるBee-8Bをトレーニングします。
実験の結果、Bee-8Bは完全にオープンなMLLMのための新しい最先端(SOTA)を確立し、InternVL3.5-8Bのような最近のセミオープンモデルに匹敵する性能を実現している。
私たちの作業は,Honey-Data-15Mコーパス,HoneyPipeとDataStudioで構成されるフルスタックスイート,レシピのトレーニング,評価ハーネス,モデルウェイトなど,コミュニティに基本的なリソースを提供しています。
この取り組みは、データ品質に重点を置くことが、セミオープンなMLLMと高い競争力を持つ完全にオープンなMLLMを開発するための鍵となる経路であることを実証している。
関連論文リスト
- Fixing It in Post: A Comparative Study of LLM Post-Training Data Quality and Model Performance [38.362162910767466]
我々は、Tulu-3-SFT-MixとSmolTalkという2つの著名なオープントレーニング後のデータセットを総合的に分析した。
構造的および質的な類似点と2つのデータセットの違いを明らかにする統計を導出する。
我々の発見は、より効果的なトレーニング後のデータセットを構築するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:34:06Z) - MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens [113.9621845919304]
MINT-1Tは最も広く多様なオープンソースMultimodal INTerleavedデータセットです。
MINT-1Tは1兆個のテキストトークンと340億の画像で構成され、既存のオープンソースデータセットの10倍のスケールアップである。
実験の結果,MINT-1TでトレーニングしたLMMは,以前の先行データセット OBELICS でトレーニングしたモデルの性能に匹敵することがわかった。
論文 参考訳(メタデータ) (2024-06-17T07:21:36Z) - OpenChat: Advancing Open-source Language Models with Mixed-Quality Data [29.938434364765534]
混合品質データを用いたオープンソースの言語モデルを進化させる新しいフレームワーク、OpenChatを提案する。
提案するC(onditioned)-RLFTは,異なるデータソースを粗い報酬ラベルとみなし,クラス条件のポリシーを学習する。
C-RLFTで微調整したopenchat-13bは、13bのオープンソース言語モデルの中で最も高い平均性能を達成する。
論文 参考訳(メタデータ) (2023-09-20T11:54:40Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。