論文の概要: Ostrakon-VL: Towards Domain-Expert MLLM for Food-Service and Retail Stores
- arxiv url: http://arxiv.org/abs/2601.21342v1
- Date: Thu, 29 Jan 2026 07:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.63701
- Title: Ostrakon-VL: Towards Domain-Expert MLLM for Food-Service and Retail Stores
- Title(参考訳): Ostrakon-VL:食品・小売店向けドメイン拡張MLLMを目指して
- Authors: Zhiyong Shen, Gongpeng Zhao, Jun Zhou, Li Yu, Guandong Kou, Jichen Li, Chuanlei Dong, Zuncheng Li, Kaimao Li, Bingkun Wei, Shicheng Hu, Wei Xia, Wenguo Duan,
- Abstract要約: 我々は,Qwen3-VL-8Bに基づくFSRS指向のMLLMであるOstrakon-VLを開発した。
Ostrakon-VL は ShopBench で平均 60.1 のスコアを獲得し、オープンソース MLLM の新たな状態を確立している。
再現可能な研究を容易にするため、Ostrakon-VLとShopBenchベンチマークを公開します。
- 参考スコア(独自算出の注目度): 15.157612712079677
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have recently achieved substantial progress in general-purpose perception and reasoning. Nevertheless, their deployment in Food-Service and Retail Stores (FSRS) scenarios encounters two major obstacles: (i) real-world FSRS data, collected from heterogeneous acquisition devices, are highly noisy and lack auditable, closed-loop data curation, which impedes the construction of high-quality, controllable, and reproducible training corpora; and (ii) existing evaluation protocols do not offer a unified, fine-grained and standardized benchmark spanning single-image, multi-image, and video inputs, making it challenging to objectively gauge model robustness. To address these challenges, we first develop Ostrakon-VL, an FSRS-oriented MLLM based on Qwen3-VL-8B. Second, we introduce ShopBench, the first public benchmark for FSRS. Third, we propose QUAD (Quality-aware Unbiased Automated Data-curation), a multi-stage multimodal instruction data curation pipeline. Leveraging a multi-stage training strategy, Ostrakon-VL achieves an average score of 60.1 on ShopBench, establishing a new state of the art among open-source MLLMs with comparable parameter scales and diverse architectures. Notably, it surpasses the substantially larger Qwen3-VL-235B-A22B (59.4) by +0.7, and exceeds the same-scale Qwen3-VL-8B (55.3) by +4.8, demonstrating significantly improved parameter efficiency. These results indicate that Ostrakon-VL delivers more robust and reliable FSRS-centric perception and decision-making capabilities. To facilitate reproducible research, we will publicly release Ostrakon-VL and the ShopBench benchmark.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年,汎用的な認識と推論において大きな進歩を遂げている。
それでも、FSRS(Food-Service and Retail Stores)のシナリオへの展開は、2つの大きな障害に直面している。
(i)異種取得装置から収集された実世界のFSRSデータは非常にノイズが高く、監査可能なクローズドループデータキュレーションが欠如しており、高品質で制御可能で再現可能なトレーニングコーパスの構築を妨げている。
(II)既存の評価プロトコルでは、単一イメージ、マルチイメージ、ビデオ入力にまたがる統一された、きめ細かな、標準化されたベンチマークが提供されていないため、モデルロバスト性を客観的に評価することは困難である。
これらの課題に対処するために,我々はまず,Qwen3-VL-8Bに基づくFSRS指向のMLLMであるOstrakon-VLを開発した。
次に、FSRSの最初の公開ベンチマークであるShopBenchを紹介します。
第3に、多段階マルチモーダル命令データキュレーションパイプラインであるQUID(Quality-aware Unbiased Automated Data-curation)を提案する。
マルチステージのトレーニング戦略を活用することで、Ostrakon-VLはShopBenchで平均60.1のスコアを獲得し、パラメータスケールと多様なアーキテクチャを備えたオープンソースのMLLMの中で、新たな最先端技術を確立している。
特に、Qwen3-VL-235B-A22B (59.4) を+0.7で上回り、同じスケールのQwen3-VL-8B (55.3) を+4.8で上回り、パラメータ効率を大幅に改善した。
これらの結果から,Ostrakon-VLはより堅牢で信頼性の高いFSRS中心の認識と意思決定能力を提供することが示された。
再現可能な研究を容易にするため、Ostrakon-VLとShopBenchベンチマークを公開します。
関連論文リスト
- Rethinking Facial Expression Recognition in the Era of Multimodal Large Language Models: Benchmark, Datasets, and Beyond [116.65158801881984]
MLLMの表情推論能力の向上を目的とした後学習戦略を提案する。
We developed a unified and interpretable FER foundation model called UniFER-7B。
論文 参考訳(メタデータ) (2025-11-01T03:53:00Z) - SAIL-VL2 Technical Report [65.45818722427506]
広義のマルチモーダル理解と推論のためのオープン・スイート・ビジョン・ファンデーション・モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VL2は2Bと8Bのパラメータスケールで様々な画像とビデオのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-17T14:34:02Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - FedMLLM: Federated Fine-tuning MLLM on Multimodal Heterogeneity Data [56.08867996209236]
フェデレートラーニング(FL)による微調整型マルチモーダル大言語モデル(MLLM)は、プライベートデータソースを含めることで、トレーニングデータの範囲を拡大することができる。
マルチモーダルな異種シナリオにおけるMLLMのファインチューニング性能を評価するためのベンチマークを提案する。
従来のFL手法を2つのモダリティに依存しない戦略と組み合わせた一般的なFedMLLMフレームワークを開発した。
論文 参考訳(メタデータ) (2024-11-22T04:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。