論文の概要: Let's Think Frame by Frame: Evaluating Video Chain of Thought with Video
Infilling and Prediction
- arxiv url: http://arxiv.org/abs/2305.13903v1
- Date: Tue, 23 May 2023 10:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:08:41.444835
- Title: Let's Think Frame by Frame: Evaluating Video Chain of Thought with Video
Infilling and Prediction
- Title(参考訳): フレーム・バイ・フレーム:ビデオ・インフィルと予測による思考のビデオ・チェーンの評価
- Authors: Vaishnavi Himakunthala, Andy Ouyang, Daniel Rose, Ryan He, Alex Mei,
Yujie Lu, Chinmay Sonar, Michael Saxon, William Yang Wang
- Abstract要約: ビデオコンテンツは、生成的AI研究では不足している。
最近の言語モデル(LLM)は、視覚的モダリティの能力と統合されつつある。
- 参考スコア(独自算出の注目度): 55.78220874026648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite constituting 65% of all internet traffic in 2023, video content is
underrepresented in generative AI research. Meanwhile, recent large language
models (LLMs) have become increasingly integrated with capabilities in the
visual modality. Integrating video with LLMs is a natural next step, so how can
this gap be bridged? To advance video reasoning, we propose a new research
direction of VideoCOT on video keyframes, which leverages the multimodal
generative abilities of vision-language models to enhance video reasoning while
reducing the computational complexity of processing hundreds or thousands of
frames. We introduce VIP, an inference-time dataset that can be used to
evaluate VideoCOT, containing 1) a variety of real-life videos with keyframes
and corresponding unstructured and structured scene descriptions, and 2) two
new video reasoning tasks: video infilling and scene prediction. We benchmark
various vision-language models on VIP, demonstrating the potential to use
vision-language models and LLMs to enhance video chain of thought reasoning.
- Abstract(参考訳): 2023年に全インターネットトラフィックの65%を構成しているにもかかわらず、ビデオコンテンツは生成AI研究では不足している。
一方、最近の大規模言語モデル(LLM)は視覚的モダリティの能力と統合されつつある。
LLMとビデオの統合は、次の自然なステップであり、このギャップを埋めるにはどうすればいいのか?
映像推論を高度化するために,視覚言語モデルのマルチモーダル生成能力を活用して,数百フレームから数千フレームの処理の計算複雑性を低減しつつ,映像推論を強化するビデオキーフレームに対するビデオコットの新たな研究方向を提案する。
我々は、ビデオCOTの評価に使用できる推論時データセットであるVIPを導入する。
1)キーフレームと対応する非構造化・構造化シーン記述の多種多様な実生活映像
2)2つの新しいビデオ推論タスク:映像の埋め合わせとシーン予測。
VIP上で様々な視覚言語モデルをベンチマークし、視覚言語モデルとLLMを用いて思考推論のビデオ連鎖を強化する可能性を実証した。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - A Challenging Multimodal Video Summary: Simultaneously Extracting and
Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。
対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。
この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文 参考訳(メタデータ) (2023-12-04T02:17:14Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。