論文の概要: ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts
- arxiv url: http://arxiv.org/abs/2507.20939v1
- Date: Mon, 28 Jul 2025 15:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.190662
- Title: ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts
- Title(参考訳): ARC-Hunyuan-Video-7B: リアルワールドショートの構造化ビデオ理解
- Authors: Yuying Ge, Yixiao Ge, Chen Li, Teng Wang, Junfu Pu, Yizhuo Li, Lu Qiu, Jin Ma, Lisheng Duan, Xinyu Zuo, Jinwen Luo, Weibo Gu, Zexuan Li, Xiaojing Zhang, Yangyu Tao, Han Hu, Di Wang, Ying Shan,
- Abstract要約: ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
- 参考スコア(独自算出の注目度): 56.75723197779384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world user-generated short videos, especially those distributed on platforms such as WeChat Channel and TikTok, dominate the mobile internet. However, current large multimodal models lack essential temporally-structured, detailed, and in-depth video comprehension capabilities, which are the cornerstone of effective video search and recommendation, as well as emerging video applications. Understanding real-world shorts is actually challenging due to their complex visual elements, high information density in both visuals and audio, and fast pacing that focuses on emotional expression and viewpoint delivery. This requires advanced reasoning to effectively integrate multimodal information, including visual, audio, and text. In this work, we introduce ARC-Hunyuan-Video, a multimodal model that processes visual, audio, and textual signals from raw video inputs end-to-end for structured comprehension. The model is capable of multi-granularity timestamped video captioning and summarization, open-ended video question answering, temporal video grounding, and video reasoning. Leveraging high-quality data from an automated annotation pipeline, our compact 7B-parameter model is trained through a comprehensive regimen: pre-training, instruction fine-tuning, cold start, reinforcement learning (RL) post-training, and final instruction fine-tuning. Quantitative evaluations on our introduced benchmark ShortVid-Bench and qualitative comparisons demonstrate its strong performance in real-world video comprehension, and it supports zero-shot or fine-tuning with a few samples for diverse downstream applications. The real-world production deployment of our model has yielded tangible and measurable improvements in user engagement and satisfaction, a success supported by its remarkable efficiency, with stress tests indicating an inference time of just 10 seconds for a one-minute video on H20 GPU.
- Abstract(参考訳): 現実世界のユーザー生成ショートビデオ、特にWeChat ChannelやTikTokなどのプラットフォームで配信されているビデオがモバイルインターネットを支配している。
しかし、現在の大規模なマルチモーダルモデルには、ビデオ検索とレコメンデーションの基盤となる、時間的、詳細な、詳細なビデオ理解機能が欠如している。
現実のショーツを理解することは、複雑な視覚要素、視覚とオーディオの両方の高情報密度、感情表現と視点配信に焦点を当てた高速なペアリングによって、実際には困難である。
これは、視覚、音声、テキストを含むマルチモーダル情報を効果的に統合する高度な推論を必要とする。
本研究では,生のビデオ入力から視覚,音声,テキスト信号を処理するマルチモーダルモデルARC-Hunyuan-Videoを紹介する。
このモデルは、マルチグラニュラリティのタイムスタンプ付きビデオキャプションと要約、オープンエンドのビデオ質問応答、時間的ビデオグラウンド、ビデオ推論が可能である。
自動アノテーションパイプラインから高品質なデータを活用することで、我々のコンパクトな7Bパラメータモデルは、事前学習、命令微調整、コールドスタート、強化学習(RL)後トレーニング、最終命令微調整という総合的なレギュレーションを通じて訓練される。
提案したベンチマークであるShortVid-Benchと定性比較による定量的評価は、実世界のビデオ理解において、その強力な性能を示し、様々な下流アプリケーションのためのサンプルを用いて、ゼロショットや微調整をサポートする。
H20 GPU上での1分間のビデオの推測に10秒しかかからない,というストレステストによって,本モデルの実際の実運用デプロイメントは,ユーザエンゲージメントと満足度において,具体的かつ測定可能な改善を実現している。
関連論文リスト
- TinyLLaVA-Video: Towards Smaller LMMs for Video Understanding with Group Resampler [10.92767902813594]
約3.6Bパラメータを持つ軽量で強力なビデオ理解モデルであるTinyLLaVA-Videoを紹介した。
我々の設計の基盤はビデオレベルのグループ再サンプリングであり、ビデオレベルの視覚トークン数を著しく削減し、制御する新しいメカニズムである。
TinyLLaVA-Videoは例外的な効率を示し、8A100-40GのGPUで1日間のトレーニングしか必要としない。
論文 参考訳(メタデータ) (2025-01-26T13:10:12Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。