論文の概要: HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.20811v1
- Date: Fri, 28 Feb 2025 07:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:18.357153
- Title: HAIC: Improving Human Action Understanding and Generation with Better Captions for Multi-modal Large Language Models
- Title(参考訳): HAIC:マルチモーダル大言語モデルのためのキャプション向上によるヒューマンアクション理解と生成の改善
- Authors: Xiao Wang, Jingyun Hua, Weihong Lin, Yuanxing Zhang, Fuzheng Zhang, Jianlong Wu, Di Zhang, Liqiang Nie,
- Abstract要約: ビデオ理解のための2段階データアノテーションパイプラインを提案する。
まず、インターネットからの人間の行動を明確にした動画を蓄積する戦略を設計する。
第2に、ビデオは、人間の属性を使って個人を識別する標準化されたキャプション形式で注釈付けされる。
- 参考スコア(独自算出の注目度): 58.04006758854256
- License:
- Abstract: Recent Multi-modal Large Language Models (MLLMs) have made great progress in video understanding. However, their performance on videos involving human actions is still limited by the lack of high-quality data. To address this, we introduce a two-stage data annotation pipeline. First, we design strategies to accumulate videos featuring clear human actions from the Internet. Second, videos are annotated in a standardized caption format that uses human attributes to distinguish individuals and chronologically details their actions and interactions. Through this pipeline, we curate two datasets, namely HAICTrain and HAICBench. \textbf{HAICTrain} comprises 126K video-caption pairs generated by Gemini-Pro and verified for training purposes. Meanwhile, \textbf{HAICBench} includes 500 manually annotated video-caption pairs and 1,400 QA pairs, for a comprehensive evaluation of human action understanding. Experimental results demonstrate that training with HAICTrain not only significantly enhances human understanding abilities across 4 benchmarks, but can also improve text-to-video generation results. Both the HAICTrain and HAICBench are released at https://huggingface.co/datasets/KuaishouHAIC/HAIC.
- Abstract(参考訳): 近年,MLLM (Multi-modal Large Language Models) はビデオ理解において大きな進歩を遂げている。
しかしながら、人間のアクションを含むビデオのパフォーマンスは、高品質なデータが不足しているため、依然として制限されている。
これを解決するために,2段階のデータアノテーションパイプラインを導入する。
まず、インターネットからの人間の行動を明確にした動画を蓄積する戦略を設計する。
第二に、ビデオは人間の属性を使って個人を識別し、その行動と相互作用を時系列的に詳述する標準化されたキャプション形式で注釈付けされる。
このパイプラインを通じて、HAICTrainとHAICBenchという2つのデータセットをキュレートします。
textbf{HAICTrain} は Gemini-Pro が生成し,トレーニング目的で検証した 126K のビデオキャプチャペアで構成されている。
一方、‘textbf{HAICBench} には、手動で注釈付きビデオキャプチャペア 500 と1,400QA ペアが含まれており、人間の行動理解を総合的に評価している。
実験結果から,HAICTrainを用いたトレーニングは,4つのベンチマークにおいて人間の理解能力を大幅に向上するだけでなく,テキスト・ビデオ生成結果の改善も可能であることが示された。
HAICTrainとHAICBenchはいずれもhttps://huggingface.co/datasets/KuaishouHAIC/HAICで公開されている。
関連論文リスト
- VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは視覚言語モデル(VLM)のための新しい自己学習パイプラインである
広範囲のマニュアルアノテーションなしで独自のトレーニングデータを生成する。
VideoSAViは、複数のベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - T2Vid: Translating Long Text into Multi-Image is the Catalyst for Video-LLMs [102.66246727371583]
そこで我々は,T2Vidと呼ばれるビデオライクなサンプルを合成し,学習コーパスの多様性を高める手法を開発した。
提案手法は,長いビデオサンプルをトレーニングすることなく,長いビデオ理解の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Towards Event-oriented Long Video Understanding [101.48089908037888]
Event-Benchは、既存のデータセットとヒューマンアノテーションに基づいて構築された、イベント指向の長いビデオ理解ベンチマークである。
VIMは、統合されたイベント集約型ビデオ命令を用いて、ビデオMLLMを強化するコスト効率のよい方法である。
論文 参考訳(メタデータ) (2024-06-20T09:14:19Z) - InternLM2 Technical Report [159.70692271378581]
本稿では,オープンソースのLarge Language Models (LLM) であるInternLM2を紹介する。
InternLM2の事前トレーニングプロセスは細部まで詳細に書かれており、多様なデータ型の準備が強調されている。
InternLM2は、4kトークンでトレーニングされた長期的依存関係を効率的にキャプチャし、事前トレーニングおよび微調整の段階で32kトークンに進む。
論文 参考訳(メタデータ) (2024-03-26T00:53:24Z) - Learning Video Representations from Large Language Models [31.11998135196614]
我々はLarge Language Models(LLMs)を利用したビデオ言語表現学習の新しいアプローチであるLaViLaを紹介した。
我々は、事前学習したLLMを視覚入力で条件付けするために再利用し、それらを微調整して自動ビデオナレーターを作成する。
私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。
論文 参考訳(メタデータ) (2022-12-08T18:59:59Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。