論文の概要: Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform
- arxiv url: http://arxiv.org/abs/2601.04891v1
- Date: Thu, 08 Jan 2026 12:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.205036
- Title: Scaling Vision Language Models for Pharmaceutical Long Form Video Reasoning on Industrial GenAI Platform
- Title(参考訳): 産業用GenAIプラットフォーム上での医薬ロングフォームビデオ推論のための視覚言語モデルのスケーリング
- Authors: Suyash Mishra, Qiang Li, Srikanth Patil, Satyanarayan Pati, Baddu Narendra,
- Abstract要約: 視覚言語モデル (VLM) はマルチモーダル推論タスクにおいて高い性能を示した。
医薬コンテンツ理解のような産業環境では、実践者は厳格なGPU、レイテンシ、コスト制約の下でロングフォームビデオを処理する必要がある。
20万以上のPDF、25,326の動画、888の多言語音声ファイルを20言語以上で処理する産業用GenAIフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.996841576736642
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) have shown strong performance on multimodal reasoning tasks, yet most evaluations focus on short videos and assume unconstrained computational resources. In industrial settings such as pharmaceutical content understanding, practitioners must process long-form videos under strict GPU, latency, and cost constraints, where many existing approaches fail to scale. In this work, we present an industrial GenAI framework that processes over 200,000 PDFs, 25,326 videos across eight formats (e.g., MP4, M4V, etc.), and 888 multilingual audio files in more than 20 languages. Our study makes three contributions: (i) an industrial large-scale architecture for multimodal reasoning in pharmaceutical domains; (ii) empirical analysis of over 40 VLMs on two leading benchmarks (Video-MME and MMBench) and proprietary dataset of 25,326 videos across 14 disease areas; and (iii) four findings relevant to long-form video reasoning: the role of multimodality, attention mechanism trade-offs, temporal reasoning limits, and challenges of video splitting under GPU constraints. Results show 3-8 times efficiency gains with SDPA attention on commodity GPUs, multimodality improving up to 8/12 task domains (especially length-dependent tasks), and clear bottlenecks in temporal alignment and keyframe detection across open- and closed-source VLMs. Rather than proposing a new "A+B" model, this paper characterizes practical limits, trade-offs, and failure patterns of current VLMs under realistic deployment constraints, and provide actionable guidance for both researchers and practitioners designing scalable multimodal systems for long-form video understanding in industrial domains.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダル推論タスクにおいて高い性能を示してきたが、ほとんどの評価はショートビデオに焦点を当て、制約のない計算資源を仮定している。
医薬品のコンテンツ理解のような産業環境では、実践者は厳格なGPU、レイテンシ、コスト制約の下で長いビデオを処理する必要がある。
本研究では,20以上の言語で20万以上のPDF,25,326の動画(MP4,M4Vなど)と888の多言語音声ファイルを処理する産業用GenAIフレームワークを提案する。
私たちの研究は3つの貢献をしている。
i) 医薬品分野におけるマルチモーダル推論のための大規模産業建築
(II)主要な2つのベンチマーク(Video-MMEとMMBench)における40以上のVLMと14の疾患領域にわたる25,326のビデオのプロプライエタリデータセットの実証分析
3) 長期的ビデオ推論に関連する4つの知見: マルチモーダルの役割, 注意機構のトレードオフ, 時間的推論限界, およびGPU制約下での映像分割の課題。
結果として、SDPAがコモディティGPUに注意を払って3~8倍の効率向上、最大8/12タスクドメイン(特に長さ依存タスク)の改善、オープンおよびクローズドソースVLM間の時間的アライメントとキーフレーム検出の明確なボトルネックが示されている。
本稿では,新しい"A+B"モデルを提案するのではなく,現実的な展開制約下での現在のVLMの実用的限界,トレードオフ,障害パターンを特徴付けるとともに,産業領域における長期ビデオ理解のためのスケーラブルなマルチモーダルシステムを設計する研究者や実践者に対して,実用的なガイダンスを提供する。
関連論文リスト
- MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。
私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。
これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文 参考訳(メタデータ) (2025-11-10T16:02:33Z) - CFVBench: A Comprehensive Video Benchmark for Fine-grained Multimodal Retrieval-Augmented Generation [29.58444236508143]
MRAG(Multimodal Retrieval-Augmented Generation)により、MLLM(Large Language Models)は、外部のマルチモーダルエビデンスによる応答を生成することができる。
既存のベンチマークは、モダリティのカバレッジとフォーマットの多様性に制限されている。
CFVBenchは599の公開ビデオから構築された大規模で手動で検証されたベンチマークである。
論文 参考訳(メタデータ) (2025-10-10T11:05:37Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。