論文の概要: Valley3: Scaling Omni Foundation Models for E-commerce
- arxiv url: http://arxiv.org/abs/2605.01278v1
- Date: Sat, 02 May 2026 06:25:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.679618
- Title: Valley3: Scaling Omni Foundation Models for E-commerce
- Title(参考訳): Valley3: 電子商取引のためのOmni Foundation Modelのスケーリング
- Authors: Zeyu Chen, Guanghao Zhou, Qixiang Yin, Ziwang Zhao, Huanjin Yao, Pengjiu Xia, Min Yang, Cen Chen, Minghui Qiu,
- Abstract要約: 多様なグローバルeコマースタスクのために開発された,Omni Multimodal Large Language Model (MLLM) であるValley3を提案する。
Valley3のキーとなる機能は、視覚言語モデルを拡張して開発されたeコマース用のネイティブな多言語オーディオ機能である。
探索ツールを積極的に起動し,タスク関連情報を取得するエージェント検索機能をValley3に装備する。
- 参考スコア(独自算出の注目度): 26.764304741635495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present Valley3, an omni multimodal large language model (MLLM) developed for diverse global e-commerce tasks, with unified understanding and reasoning capabilities across text, images, video, and audio. A key feature of Valley3 is its native multilingual audio capability for e-commerce, developed by extending vision-language models to better support crucial audio-visual tasks, particularly in short-video scenarios. To achieve this, we carefully design a four-stage omni e-commerce continued pre-training pipeline, through which Valley3 progressively acquires audio understanding, cross-modal instruction-following, e-commerce domain knowledge, and long-context reasoning capabilities, ultimately evolving into an omni model for diverse e-commerce scenarios. Then, we further improve Valley3 through post-training to encourage long-chain reasoning with controllable reasoning modes, enabling one non-thinking mode and three distinct levels of thinking, thereby balancing inference efficiency in simple scenarios with deep reasoning for complex applications. Moreover, we equip Valley3 with agentic search capabilities to proactively invoke search tools and acquire task-relevant information for e-commerce deep research tasks. To comprehensively assess the capabilities of Valley3, we construct an omni e-commerce benchmark spanning 6 tasks. Experimental results show that Valley3 consistently outperforms strong baselines on our in-house and open-source e-commerce benchmarks, while remaining competitive on general-domain benchmarks.
- Abstract(参考訳): 本研究では,テキスト,画像,ビデオ,音声の統一的理解と推論機能を備えた,多種多様なグローバルeコマースタスク用に開発されたOmni Multimodal Large Language Model (MLLM) であるValley3を提案する。
Valley3の重要な機能は、Eコマースのためのネイティブな多言語オーディオ機能で、特にショートビデオシナリオにおいて、重要なオーディオ視覚タスクをサポートするために視覚言語モデルを拡張することで開発された。
そこで、Valley3は、音声理解、クロスモーダルなインストラクションフォロー、eコマースドメイン知識、長期コンテキスト推論能力などを段階的に獲得し、最終的には多様なeコマースシナリオのためのOmniモデルへと発展させます。
次に、制御可能な推論モードによるロングチェーン推論を奨励し、1つの非思考モードと3つの異なるレベルの思考を可能にし、複雑なアプリケーションに対する深い推論を伴う単純なシナリオにおける推論効率のバランスをとる。
さらに,Valley3にエージェント検索機能を設け,検索ツールを積極的に起動し,電子商取引深層調査タスクのタスク関連情報を取得する。
Valley3の能力を総合的に評価するために、6つのタスクにまたがるOmni eコマースベンチマークを構築した。
実験の結果、Valley3は当社の社内およびオープンソースEコマースベンチマークのベースラインを一貫して上回り、一般のベンチマークでは競争力を維持しています。
関連論文リスト
- Adapting Vision-Language Models for E-commerce Understanding at Scale [36.93444961629752]
汎用視覚言語モデル(VLM)は、一般化可能な多モード潜在モデルを可能にする。
本研究は,VLMの汎用化が電子商取引性能を大幅に向上させる可能性について,大規模な実験的研究を通して示す。
本稿では,製品理解の深化,厳密な指示の追従,動的属性抽出を網羅した新しい評価スイートを提案する。
論文 参考訳(メタデータ) (2026-02-12T08:59:22Z) - MOON Embedding: Multimodal Representation Learning for E-commerce Search Advertising [15.973876554014119]
我々は、eコマースアプリケーションのためのマルチモーダル表現学習のための持続可能な反復的プラクティスの包括的セットであるMOONを紹介する。
月はすでに、Taobao検索広告システムの全段階にわたって完全に展開されている。
MOONはデータ処理、トレーニング戦略、モデルアーキテクチャ、下流アプリケーションという4つの重要な側面に沿って進化してきた。
論文 参考訳(メタデータ) (2025-11-14T13:49:56Z) - ChineseEcomQA: A Scalable E-commerce Concept Evaluation Benchmark for Large Language Models [15.940958043509463]
我々は,eコマースの基本的な概念に着目した,スケーラブルな質問応答ベンチマークである textbf ChineseEcomQA を提案する。
基本的な概念は、さまざまなeコマースタスクに適用できるように設計されている。
一般性と特異性を慎重にバランスさせることで、ChinaEcomQAは広範囲にわたるeコマースのコンセプトを効果的に区別する。
論文 参考訳(メタデータ) (2025-02-27T15:36:00Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - IntentionQA: A Benchmark for Evaluating Purchase Intention Comprehension Abilities of Language Models in E-commerce [71.37481473399559]
本稿では,eコマースにおけるLMの購入意図の理解を評価するためのベンチマークであるIntentionQAを提案する。
インテンションQAは、自動化パイプラインを使用して構築された3つの困難レベルにわたる4,360の慎重に計算された問題で構成されている。
人間の評価は、我々のベンチマークの高品質で低い偽陰性率を示す。
論文 参考訳(メタデータ) (2024-06-14T16:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。