Fugu-MT 論文翻訳(概要): Video-VoT-R1: An efficient video inference model integrating image packing and AoE architecture

論文の概要: Video-VoT-R1: An efficient video inference model integrating image packing and AoE architecture

arxiv url: http://arxiv.org/abs/2503.15807v1
Date: Thu, 20 Mar 2025 02:50:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.23246
Title: Video-VoT-R1: An efficient video inference model integrating image packing and AoE architecture
Title（参考訳）: Video-VoT-R1:画像パッキングとAoEアーキテクチャを組み合わせた効率的なビデオ推論モデル
Authors: Cheng Li, Jiexiong Liu, Yixuan Chen, Yanqin Jia,
Abstract要約: 本稿では,KunLunBaize-VoT-R1ビデオ推論モデルを提案する。実験により、このモデルは複数のテストにおいて卓越した性能を示し、ビデオ言語理解のための新しいソリューションを提供する。
参考スコア（独自算出の注目度）: 3.850138059878136
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the field of video-language pretraining, existing models face numerous challenges in terms of inference efficiency and multimodal data processing. This paper proposes a KunLunBaize-VoT-R1 video inference model based on a long-sequence image encoder, along with its training and application methods. By integrating image packing technology, the Autonomy-of-Experts (AoE) architecture, and combining the video of Thought (VoT), a large language model (LLM) trained with large-scale reinforcement learning, and multiple training techniques, the efficiency and accuracy of the model in video inference tasks are effectively improved. Experiments show that this model performs outstandingly in multiple tests, providing a new solution for video-language understanding.
Abstract（参考訳）: ビデオ言語事前学習の分野では、既存のモデルは推論効率とマルチモーダルデータ処理の点で多くの課題に直面している。本稿では,KunLunBaize-VoT-R1ビデオ推論モデルを提案する。画像パッキング技術、AoE(Autonomy-of-Experts)アーキテクチャ、大規模強化学習で訓練された大規模言語モデル(LLM)、および複数のトレーニング技術を組み合わせることで、ビデオ推論タスクにおけるモデルの効率性と精度を効果的に向上する。実験により、このモデルは複数のテストにおいて卓越した性能を示し、ビデオ言語理解のための新しいソリューションを提供する。

関連論文リスト

SNED: Superposition Network Architecture Search for Efficient Video Diffusion Model [41.825824810180215]
本稿では,効率的な映像拡散モデルのための重ね合わせネットワークアーキテクチャ探索手法SNEDを提案する。提案手法では,様々なモデルコストと解像度の選択肢をターゲットにしたスーパーネットトレーニングパラダイムを採用している。当社のフレームワークは、高い効率で、さまざまなモデルオプションに匹敵する結果を一貫して生成しています。
論文参考訳（メタデータ） (2024-05-31T21:12:30Z)
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文参考訳（メタデータ） (2024-03-22T17:57:42Z)
Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文参考訳（メタデータ） (2024-02-05T16:30:49Z)
E-ViLM: Efficient Video-Language Model via Masked Video Modeling with Semantic Vector-Quantized Tokenizer [5.7254320553764]
E-ViLMはビデオ言語コーパスから表現表現を学習し、広範なビデオ言語タスクにうまく一般化することができる。我々のモデルはMSRVTTベンチマークで399.3ドル%トップ1ドル精度に達し、最先端の大規模VLアーキテクチャの精度の91.4ドル%を維持している。
論文参考訳（メタデータ） (2023-11-28T22:57:17Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。 Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文参考訳（メタデータ） (2023-10-08T03:35:27Z)
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。 VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文参考訳（メタデータ） (2023-05-22T15:54:22Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
Frozen CLIP Models are Efficient Video Learners [86.73871814176795]
ビデオ認識はエンドツーエンドの学習パラダイムに支配されている。 Contrastive Vision-Language Pre-Trainingの最近の進歩は、視覚認識タスクのための新しいルートの道を開く。高品質なビデオ認識モデルを直接トレーニングする効率的なフレームワークである、効率的なビデオ学習を提案する。
論文参考訳（メタデータ） (2022-08-06T17:38:25Z)
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。 2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文参考訳（メタデータ） (2020-02-15T10:03:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。