論文の概要: Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions
- arxiv url: http://arxiv.org/abs/2602.13013v1
- Date: Fri, 13 Feb 2026 15:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.005096
- Title: Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions
- Title(参考訳): 属性構造と品質検証によるユニバーサルビデオMLLMの実現に向けて
- Authors: Yunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng,
- Abstract要約: ASID-1Mは100万の構造化された微細なオーディオ視覚的指示アノテーションのオープンソースコレクションである。
ASID-Verifyは、アノテーションのためのスケーラブルなデータキュレーションパイプラインである。
ASID-CaptionerはSupervised Fine-Tuningを通じてトレーニングされたビデオ理解モデルである。
- 参考スコア(独自算出の注目度): 74.27249614046309
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.
- Abstract(参考訳): ユニバーサルビデオ理解には、様々な現実世界のシナリオにおいて、細かな視覚情報や音声情報を時間とともにモデル化する必要がある。
しかし、既存のモデルの性能は、複雑なオーディオヴィジュアルコンテンツを単一かつ不完全な記述として表現し、きめ細かい組織と信頼できるアノテーションを欠いているビデオインストラクションデータによって制約される。
この問題に対処するため、我々は次のように紹介する。
(i)ASID-1Mは,単一および複数属性の監督を伴う100万の構造化されたきめ細かなオーディオ視覚的指示アノテーションのオープンソースコレクションである。
(ii)ASID-Verifyは、アノテーションのためのスケーラブルなデータキュレーションパイプラインで、記述と対応するオーディオヴィジュアルコンテンツ間の意味的・時間的一貫性を強制する自動検証と改善を行う。
(iii)ASID-Captionerは、ASID-1M上でSFT(Supervised Fine-Tuning)を用いて訓練されたビデオ理解モデルである。
音響視覚的キャプション、属性ワイドキャプション、キャプションベースのQA、キャプションベースの時間的グラウンドティングを含む7つのベンチマーク実験により、ASID-Captionerは幻覚を減らし、指示に従うことで、きめ細かいキャプションの品質を向上することが示された。
オープンソースのモデル間で最先端のパフォーマンスを実現し、Gemini-3-Proと競合する。
関連論文リスト
- IF-VidCap: Can Video Caption Models Follow Instructions? [44.2412700621584]
制御可能なビデオキャプションを評価するための新しいベンチマークであるIF-VidCapを紹介する。
IF-VidCapには、フォーマットの正しさとコンテンツの正しさの2つの側面でキャプションを評価する、体系的なフレームワークが組み込まれている。
論文 参考訳(メタデータ) (2025-10-21T15:25:08Z) - CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval [24.203328970223527]
本稿では,詳細な動画キャプションと検索のためのベンチマークであるCaReBenchを紹介する。
同様に、ビデオごとに手動で分離された空間アノテーションと時間アノテーションを提供する。
この設計に基づいて、ビデオ検索とビデオキャプションタスクに特化して、ReBiasとCapSTという2つの評価指標を導入する。
論文 参考訳(メタデータ) (2024-12-31T15:53:50Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。