論文の概要: Kwai Keye-VL Technical Report
- arxiv url: http://arxiv.org/abs/2507.01949v1
- Date: Wed, 02 Jul 2025 17:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.439744
- Title: Kwai Keye-VL Technical Report
- Title(参考訳): Kwai Keye-VL技術報告
- Authors: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang,
- Abstract要約: ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。
Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。
提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
- 参考スコア(独自算出の注目度): 80.53170317017147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce \textbf{Kwai Keye-VL}, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode ``cold-start'' data mixture, which includes ``thinking'', ``non-thinking'', ``auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the \textbf{KC-MMBench}, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は静的画像に顕著な能力を示すが、今日のデジタルランドスケープにおいて支配的なメディアであるダイナミックで情報密度の高いショートフォームビデオの理解に不足することが多い。
このギャップを埋めるために,高機能な汎用視覚言語能力を維持しつつ,短時間の理解において最先端のパフォーマンスを実現するために設計された8ビリオンパラメトリック・マルチモーダル・ファンデーションモデルである \textbf{Kwai Keye-VL} を導入する。
Keye-VLの開発は、600億トークンを超える巨大で高品質なデータセットと、ビデオに重点を置いた革新的なトレーニングレシピの2つの柱の上に置かれている。
このレシピは、固体視覚言語アライメントのための4段階の事前訓練プロセスと、微妙な2段階のポストトレーニングプロセスが特徴である。
第1の訓練後段階は、後続の指導のような基礎的能力を高め、第2の段階は高度な推論の刺激に焦点を当てる。
この第2フェーズでは、私たちの5つのモード ‘‘cold-start’’ データミックスが重要なイノベーションであり、その中には、‘`thinking'’、‘`non-thinking''、‘`auto-think'’、‘`think with image’’、そして高品質のビデオデータが含まれています。
この混合は、モデルをいつ、どのように判断するかをモデルに教える。
その後の強化学習(RL)とアライメントステップは、これらの推論能力をさらに強化し、繰り返し出力などの異常モデル挙動を補正する。
提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す(第1図)。
さらに、Kee-VLが大きな優位性を示す実世界のショートビデオシナリオに適した新しいベンチマークである「textbf{KC-MMBench}」を開発し、リリースする。
関連論文リスト
- Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。
InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。
このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文 参考訳(メタデータ) (2024-12-06T18:57:08Z) - Making Every Frame Matter: Continuous Activity Recognition in Streaming Video via Adaptive Video Context Modeling [19.205142489726875]
ビデオのアクティビティ認識は、ロボットやAIの具体化においてますます重要になっている。
適応型ビデオコンテキストモデリングにより,これらの問題を克服するための新しいシステムCARSを導入する。
当社のCARSは、一般的なエッジデバイス上で30FPS以上の速度で動作し、すべてのベースラインを1.2%から79.7%の精度で上回っている。
論文 参考訳(メタデータ) (2024-10-19T05:50:00Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。