論文の概要: FaVChat: Unlocking Fine-Grained Facial Video Understanding with Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.09158v2
- Date: Thu, 13 Mar 2025 10:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:09:15.476713
- Title: FaVChat: Unlocking Fine-Grained Facial Video Understanding with Multimodal Large Language Models
- Title(参考訳): FaVChat: マルチモーダル大言語モデルによる細粒度顔画像理解のロック解除
- Authors: Fufangchen Zhao, Ming Li, Linrui Xu, Wenhao Jiang, Jian Gao, Danfeng Yan,
- Abstract要約: FaVChatは、顔のきめ細かいビデオ理解のために特別に設計された最初のVMLLMである。
我々は60k以上の動画からなる大規模な顔画像データセットを構築し,大半が83の微粒な顔属性で注釈付けされている。
我々は,映像要約から高品質な映像QAサブセットへ移行し,タスクの複雑さを徐々に増大させ,モデルのきめ細かい視覚知覚を高める,プログレッシブトレーニングパラダイムを採用する。
- 参考スコア(独自算出の注目度): 12.029771909598647
- License:
- Abstract: Video-based multimodal large language models (VMLLMs) have demonstrated remarkable potential in cross-modal video understanding. However, their abilities in fine-grained face comprehension remain largely underexplored. Given its pivotal role in human-centric intelligence, developing VMLLMs for facial understanding holds a fundamental problem. To address this gap, we propose FaVChat, the first VMLLM specifically designed for fine-grained facial video understanding. To facilitate its training, we construct a large-scale facial video dataset comprising over 60k videos, with the majority annotated with 83 fine-grained facial attributes. These attributes are incorporated to enrich GPT-4o-generated captions, yielding 60k high-quality video-summary pairs and an additional 170k fine-grained question-answering (QA) pairs. To effectively capture rich facial clues, we propose a hybrid model architecture composed of a general visual encoder, a dedicated facial encoder, and a mixture-of-experts-enhanced adapter for adaptive fusion of multi-source visual features. To mitigate information loss during feature transformation, we extract multi-granularity representations from the facial encoder and integrate them into the subsequent LLM. This design enhances the model's ability to comprehend and respond to questions involving diverse levels of visual details. We employ a progressive training paradigm, transitioning from video summarization to a high-quality subset of video QA, gradually increasing task complexity to enhance the model's fine-grained visual perception. We conduct extensive zero-shot evaluation on a couple of public benchmarks, demonstrating that FaVChat consistently surpasses existing VMLLMs across multiple tasks.
- Abstract(参考訳): ビデオベースマルチモーダル大言語モデル(VMLLM)は、クロスモーダルビデオ理解において顕著な可能性を示している。
しかし、その微粒な顔の理解能力はいまだに未解明のままである。
人間中心のインテリジェンスにおいて重要な役割を担っているため、顔認識のためのVMLLMの開発は根本的な問題である。
このギャップに対処するために,顔のきめ細かい映像理解に特化したVMLLMであるFaVChatを提案する。
トレーニングを容易にするため,60k以上の動画からなる大規模な顔画像データセットを構築し,83種類の微粒な顔属性をアノテートした。
これらの属性は、GPT-4o生成キャプションの強化に組み込まれ、60kの高品質ビデオサマリーペアと、さらに170kのきめ細かい質問応答(QA)ペアが生成される。
多様な顔の手がかりを効果的に捉えるために,汎用視覚符号化器,専用顔符号化器,多元的視覚特徴の適応融合用混在型適応器からなるハイブリッドモデルアーキテクチャを提案する。
特徴変換時の情報損失を軽減するため,顔エンコーダから多粒度表現を抽出し,その後のLLMに統合する。
このデザインは、様々なレベルの視覚的詳細を含む質問を理解し、応答するモデルの能力を高める。
我々は,映像要約から高品質な映像QAサブセットへ移行し,タスクの複雑さを徐々に増大させ,モデルのきめ細かい視覚知覚を高める,プログレッシブトレーニングパラダイムを採用する。
2つの公開ベンチマークで広範囲なゼロショット評価を行い、FVChatが複数のタスクにわたる既存のVMLLMを一貫して上回っていることを示す。
関連論文リスト
- Facial Dynamics in Video: Instruction Tuning for Improved Facial Expression Perception and Contextual Awareness [6.634133253472436]
本稿では,動的表情キャプションに適した命令追従データセットを提案する。
データセットは、5,033本の高品質なビデオクリップを手動で注釈付けし、70,000以上のトークンを含んでいる。
また,このタスクにおける既存のビデオMLLMの性能を評価するためのベンチマークであるFEC-Benchを提案する。
論文 参考訳(メタデータ) (2025-01-14T09:52:56Z) - LMM-VQA: Advancing Video Quality Assessment with Large Multimodal Models [53.64461404882853]
ビデオ品質評価(VQA)アルゴリズムは、ストリーミングビデオの品質を監視し最適化するために必要である。
本稿では,LMM-VQA(Large Multi-Modal Video Quality Assessment)モデルを提案する。
論文 参考訳(メタデータ) (2024-08-26T04:29:52Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。