Fugu-MT 論文翻訳(概要): Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

論文の概要: Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization

arxiv url: http://arxiv.org/abs/2504.21831v1
Date: Wed, 30 Apr 2025 17:37:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 17:33:23.728602
Title: Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization
Title（参考訳）: ビデオ要約のためのVLMの早期・多段階知識蒸留
Authors: Anas Anwarul Haq Khan, Utkarsh Verma, Prateek Chanda, Ganesh Ramakrishnan,
Abstract要約: DEEVISumは、セグメントワイズビデオ要約のための軽量で効率的でスケーラブルなビジョン言語モデルである。 DEEVISumはマルチステージ知識蒸留(MSKD)とEarly Exit(EE)を統合して、パフォーマンスと効率のバランスを取る。
参考スコア（独自算出の注目度）: 16.66633426354087
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DEEVISum (Distilled Early Exit Vision language model for Summarization), a lightweight, efficient, and scalable vision language model designed for segment wise video summarization. Leveraging multi modal prompts that combine textual and audio derived signals, DEEVISum incorporates Multi Stage Knowledge Distillation (MSKD) and Early Exit (EE) to strike a balance between performance and efficiency. MSKD offers a 1.33% absolute F1 improvement over baseline distillation (0.5%), while EE reduces inference time by approximately 21% with a 1.3 point drop in F1. Evaluated on the TVSum dataset, our best model PaLI Gemma2 3B + MSKD achieves an F1 score of 61.1, competing the performance of significantly larger models, all while maintaining a lower computational footprint. We publicly release our code and processed dataset to support further research.
Abstract（参考訳）: DeEVISum (Distilled Early Exit Vision Language Model for Summarization) は,セグメントワイズビデオ要約用に設計された軽量で効率的でスケーラブルな視覚言語モデルである。 DEEVISumはテキストと音声から導出される信号を組み合わせたマルチモーダルプロンプトを活用し、Multi Stage Knowledge Distillation (MSKD)とEarly Exit (EE)を組み込んで、パフォーマンスと効率のバランスを取る。 MSKDはベースライン蒸留よりも1.33%の絶対F1の改善(0.5%)を提供しており、EEはF1の1.3ポイントの低下で推論時間を約21%削減している。 TVSumデータセットに基づいて評価し、我々の最良のモデル PaLI Gemma2 3B + MSKD は F1 スコア 61.1 を達成する。コードと処理されたデータセットを公開して、さらなる研究を支援しています。

関連論文リスト

Kwai Keye-VL Technical Report [80.53170317017147]
ショートビデオ理解のためのマルチモーダル基盤モデルである textbfKwai Keye-VL を紹介する。 Keye-VLの開発は,ビデオに重点を置いた大規模で高品質なデータセットと,革新的なトレーニングレシピという,2つのコア柱に留まっている。提案手法の有効性を検証するため,我々は,Kee-VLが公開ビデオベンチマークにおける最先端の成果を達成し,一般的な画像ベースタスクにおいて高い競争力を保っていることを示す,広範囲な評価を行う。
論文参考訳（メタデータ） (2025-07-02T17:57:28Z)
Multimodal Foundation Model for Cross-Modal Retrieval and Activity Recognition Tasks [3.1976901430982063]
本研究では,3人称ビデオ,モーションキャプチャ,IMU,テキストの4つのモードを統合した基礎モデルを提案する。第三者のビデオとモーションキャプチャーデータを組み込むことで、このモデルは人間の活動の詳細な多次元的理解を可能にする。
論文参考訳（メタデータ） (2025-05-29T01:47:43Z)
EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文参考訳（メタデータ） (2025-05-20T02:27:08Z)
Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.11571295790807]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。 1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文参考訳（メタデータ） (2025-04-29T09:24:30Z)
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos [4.452513686760606]
マルチモーダル大言語モデル(MLLM)の内部連鎖(CoT)を利用したビデオから音声を生成するフレームワークを提案する。対応するマルチモーダル推論データセットを構築し、音声生成における初期推論の学習を容易にする。実験では,提案手法が生成した音声の不一致(発声)の低減に有効であることを示す。
論文参考訳（メタデータ） (2025-03-28T07:56:19Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
Baichuan-Omni-1.5 Technical Report [78.49101296394218]
Baichuan-Omni-1.5は、Omni-modalの理解能力だけでなく、エンドツーエンドのオーディオ生成機能も備えたOmni-modalモデルである。マルチモーダルデータのための包括的データクリーニングと合成パイプラインを構築し,約500Bの高品質データを取得する。第二に、音声トケナイザは、音声から意味情報と音響情報をキャプチャし、シームレスな統合とMLLMとの互換性の強化を可能にするように設計されている。
論文参考訳（メタデータ） (2025-01-26T02:19:03Z)
Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling [128.24325909395188]
InternVL 2.5は、InternVL 2.0上に構築された高度マルチモーダル大規模言語モデル(MLLM)シリーズである。 InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetといった主要な商用モデルと競合する競争力を持つ。このモデルが、マルチモーダルAIシステムの開発と適用のための新しい標準を設定することで、オープンソースコミュニティに貢献できることを願っています。
論文参考訳（メタデータ） (2024-12-06T18:57:08Z)
Fine-Tuning Vision-Language Model for Automated Engineering Drawing Information Extraction [0.0]
Florence-2はオープンソースの視覚自動モデル(VLM)であるドメインの専門家が提供した、根拠となる真実のアノテーションを備えた400の図面のデータセットでトレーニングされている。 29.95%の精度向上、37.75%のリコール、52.40%のF1スコアの改善、43.15%の幻覚率の低下を実現している。
論文参考訳（メタデータ） (2024-11-06T07:11:15Z)
Improving Entity Recognition Using Ensembles of Deep Learning and Fine-tuned Large Language Models: A Case Study on Adverse Event Extraction from Multiple Sources [13.750202656564907]
副作用イベント(AE)抽出は、免疫の安全プロファイルを監視し解析するために重要である。本研究では,AE抽出における大規模言語モデル(LLM)と従来のディープラーニングモデルの有効性を評価することを目的とする。
論文参考訳（メタデータ） (2024-06-26T03:56:21Z)
3D Annotation-Free Learning by Distilling 2D Open-Vocabulary Segmentation Models for Autonomous Driving [17.42913935045091]
2D textbf Open-textbfVocabulary セグメンテーションモデルを用いた新しい3D textbf Annotation-textbfFree フレームワーク AFOV を提案する。第一段階では、2次元オープン語彙モデルの高品質テキストと画像の特徴を革新的に統合し、TMP(Tri-Modal contrastive Pre-training)を提案する。第2段階では、点雲と画像の間の空間マッピングを利用して擬似ラベルを生成し、交差を可能にする。
論文参考訳（メタデータ） (2024-05-24T07:18:09Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。 ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文参考訳（メタデータ） (2024-01-15T17:28:37Z)
VideoAdviser: Video Knowledge Distillation for Multimodal Transfer Learning [6.379202839994046]
マルチモーダル変換学習は、様々なモーダルの事前訓練された表現を、効果的なマルチモーダル融合のための共通の領域空間に変換することを目的としている。本稿では,マルチモーダル基本モデルから特定のモーダル基本モデルへ,マルチモーダルなプロンプトのマルチモーダルな知識を伝達するためのビデオ知識蒸留手法であるVideoAdviserを提案する。本手法は,映像レベルの感情分析と音声視覚検索の2つの課題において評価する。
論文参考訳（メタデータ） (2023-09-27T08:44:04Z)
Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification [0.4681661603096334]
ラベルの弱い補助的なタスクは、学習した話者表現の質を高めることができることを示す。また、GE2E(Generalized End-to-End Loss)をマルチモーダル入力に拡張し、オーディオ視覚空間における競合性能の実現を実証する。我々のネットワークは,VoxCeleb1-O/E/Hテストセット上で,0.244%,0.252%,0.441%のEER(Equal Error Rate)を報告した。
論文参考訳（メタデータ） (2023-09-13T17:45:41Z)
Multimodal Transformer Distillation for Audio-Visual Synchronization [53.237653873618754]
本稿ではMTDVocaLiSTモデルを提案する。 MTDVocaLiSTはVocaLiSTのモデルサイズを83.52%削減するが、同様の性能を維持している。
論文参考訳（メタデータ） (2022-10-27T15:53:38Z)
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。 EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文参考訳（メタデータ） (2022-10-14T13:26:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。