論文の概要: A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot
- arxiv url: http://arxiv.org/abs/2305.09758v3
- Date: Thu, 26 Oct 2023 10:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 02:21:08.126590
- Title: A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot
- Title(参考訳): ビデオは4096トークンに値します。ビデオはゼロショットで理解するために口頭で表現します
- Authors: Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn
Shah, Changyou Chen
- Abstract要約: そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
- 参考スコア(独自算出の注目度): 67.00455874279383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia content, such as advertisements and story videos, exhibit a rich
blend of creativity and multiple modalities. They incorporate elements like
text, visuals, audio, and storytelling techniques, employing devices like
emotions, symbolism, and slogans to convey meaning. There is a dearth of large
annotated training datasets in the multimedia domain hindering the development
of supervised learning models with satisfactory performance for real-world
applications. On the other hand, the rise of large language models (LLMs) has
witnessed remarkable zero-shot performance in various natural language
processing (NLP) tasks, such as emotion classification, question-answering, and
topic classification. To leverage such advanced techniques to bridge this
performance gap in multimedia understanding, we propose verbalizing long videos
to generate their descriptions in natural language, followed by performing
video-understanding tasks on the generated story as opposed to the original
video. Through extensive experiments on fifteen video-understanding tasks, we
demonstrate that our method, despite being zero-shot, achieves significantly
better results than supervised baselines for video understanding. Furthermore,
to alleviate a lack of story understanding benchmarks, we publicly release the
first dataset on a crucial task in computational social science on persuasion
strategy identification.
- Abstract(参考訳): 広告やストーリービデオなどのマルチメディアコンテンツは、創造性と複数のモダリティの豊富なブレンドを示す。
テキスト、ビジュアル、オーディオ、ストーリーテリングといった要素が組み込まれており、感情、象徴、スローガンなどを使って意味を伝える。
マルチメディア領域には多数の注釈付きトレーニングデータセットがあり、現実世界のアプリケーションに十分な性能を持つ教師付き学習モデルの開発を妨げる。
一方、大規模言語モデル(LLM)の台頭は、感情分類、質問応答、話題分類など、様々な自然言語処理(NLP)タスクにおいて顕著なゼロショット性能をみせた。
マルチメディア理解におけるこのパフォーマンスギャップを埋めるために,このような高度な手法を活用するために,自然言語による記述を生成するために長大な動画を言語化することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られることを示す。
さらに、ストーリー理解ベンチマークの欠如を緩和するために、我々は、説得戦略識別に関する計算社会科学における重要なタスクに関する最初のデータセットを公開する。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。