論文の概要: From Understanding to Engagement: Personalized pharmacy Video Clips via Vision Language Models (VLMs)
- arxiv url: http://arxiv.org/abs/2601.05059v1
- Date: Thu, 08 Jan 2026 16:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.268501
- Title: From Understanding to Engagement: Personalized pharmacy Video Clips via Vision Language Models (VLMs)
- Title(参考訳): 理解からエンゲージメントへ:視覚言語モデル(VLM)によるパーソナライズド薬局ビデオクリップ
- Authors: Suyash Mishra, Qiang Li, Srikanth Patil, Anubhav Girdhar,
- Abstract要約: ビジョン言語モデル(VLM)は、医薬品産業のデジタルトランスフォーメーションに革命をもたらす。
本稿では,音声言語モデル(ALM)と視覚言語モデル(VLM)を統合し,ハイライトクリップを生成するドメイン適応ビデオクリップ生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.142303406607558
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs) are poised to revolutionize the digital transformation of pharmacyceutical industry by enabling intelligent, scalable, and automated multi-modality content processing. Traditional manual annotation of heterogeneous data modalities (text, images, video, audio, and web links), is prone to inconsistencies, quality degradation, and inefficiencies in content utilization. The sheer volume of long video and audio data further exacerbates these challenges, (e.g. long clinical trial interviews and educational seminars). Here, we introduce a domain adapted Video to Video Clip Generation framework that integrates Audio Language Models (ALMs) and Vision Language Models (VLMs) to produce highlight clips. Our contributions are threefold: (i) a reproducible Cut & Merge algorithm with fade in/out and timestamp normalization, ensuring smooth transitions and audio/visual alignment; (ii) a personalization mechanism based on role definition and prompt injection for tailored outputs (marketing, training, regulatory); (iii) a cost efficient e2e pipeline strategy balancing ALM/VLM enhanced processing. Evaluations on Video MME benchmark (900) and our proprietary dataset of 16,159 pharmacy videos across 14 disease areas demonstrate 3 to 4 times speedup, 4 times cost reduction, and competitive clip quality. Beyond efficiency gains, we also report our methods improved clip coherence scores (0.348) and informativeness scores (0.721) over state of the art VLM baselines (e.g., Gemini 2.5 Pro), highlighting the potential of transparent, custom extractive, and compliance supporting video summarization for life sciences.
- Abstract(参考訳): ビジョン言語モデル(VLM)は、インテリジェントでスケーラブルで自動化されたマルチモーダルなコンテンツ処理を可能にすることで、医薬品産業のデジタルトランスフォーメーションに革命をもたらす。
不均一なデータモダリティ(テキスト、画像、ビデオ、オーディオ、ウェブリンク)の従来の手動アノテーションは、コンテンツ利用における不整合、品質劣化、非効率をもたらす。
長いビデオとオーディオデータの量は、これらの課題をさらに悪化させます(例えば、長い臨床試験と教育セミナー)。
本稿では,音声言語モデル(ALM)と視覚言語モデル(VLM)を統合し,ハイライトクリップを生成するドメイン適応ビデオクリップ生成フレームワークを提案する。
私たちの貢献は3倍です。
(i)フェードイン/アウト,タイムスタンプ正規化,スムーズな遷移とオーディオ/視覚アライメントを保証する再現可能なカット&マージアルゴリズム
2 調整された生産物(販売、訓練、規制)に対する役割定義及び即時注入に基づくパーソナライズ機構
3) ALM/VLM強化処理のバランスをとるコスト効率の良いe2eパイプライン戦略。
The Evaluations on Video MME benchmark (900) and our proprietary dataset of 16,159 Pharmacy video across 14 disease area showed 3~4 times speedup, 4 times cost reduction, and competitive clip quality。
また, 効率向上以外にも, 生活科学における映像要約を支援する透過的, カスタム抽出, コンプライアンスの可能性を強調した, 最先端のVLMベースライン(Gemini 2.5 Proなど)に対して, クリップコヒーレンススコア(0.348)と情報度スコア(0.721)を改善した手法も報告した。
関連論文リスト
- Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation [37.975475053907545]
MLLM(Multimodal Large Language Models)はビデオ理解において顕著な進歩を遂げている。
それらは重大な脆弱性に悩まされる: 言語先行への過度な依存であり、視覚的に根拠のない幻覚を引き起こす可能性がある。
制御可能な拡散型ビデオ編集を利用する新しいデータ合成フレームワークであるDualityForgeを紹介する。
論文 参考訳(メタデータ) (2025-12-30T14:53:33Z) - Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives [0.0]
本稿では,Causal-Temporal Reasoning Moduleを最先端のLVLMに統合する拡張フレームワークを提案する。
CTRMはCausal Dynamics(CDE)とTemporal Learner(TRL)の2つの重要なコンポーネントから構成される。
大規模ビデオテキストデータセットの事前学習を併用して,モデル最適化のための多段階学習戦略を設計する。
論文 参考訳(メタデータ) (2024-12-14T07:28:38Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは、ビデオ-LLMが外部の監督なしにビデオコンテンツから学ぶことができる自己学習パイプラインである。
我々のアプローチは、モデルの初期応答における推論エラーを識別する自己記述機構を含む。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。