論文の概要: Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2305.13903v2
- Date: Fri, 3 Nov 2023 20:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:41:36.163060
- Title: Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought
- Title(参考訳): vipでフレーム・バイ・フレームを考える:ビデオ・チェーン・オブ・マインド評価のためのビデオインフィルメントと予測データセット
- Authors: Vaishnavi Himakunthala, Andy Ouyang, Daniel Rose, Ryan He, Alex Mei,
Yujie Lu, Chinmay Sonar, Michael Saxon, William Yang Wang
- Abstract要約: 我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
- 参考スコア(独自算出の注目度): 62.619076257298204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite exciting recent results showing vision-language systems' capacity to
reason about images using natural language, their capacity for video reasoning
remains under-explored. We motivate framing video reasoning as the sequential
understanding of a small number of keyframes, thereby leveraging the power and
robustness of vision-language while alleviating the computational complexities
of processing videos. To evaluate this novel application, we introduce VIP, an
inference-time challenge dataset designed to explore models' reasoning
capabilities through video chain-of-thought. Inspired by visually descriptive
scene plays, we propose two formats for keyframe description: unstructured
dense captions and structured scene descriptions that identify the focus,
action, mood, objects, and setting (FAMOuS) of the keyframe. To evaluate video
reasoning, we propose two tasks: Video Infilling and Video Prediction, which
test abilities to generate multiple intermediate keyframes and predict future
keyframes, respectively. We benchmark GPT-4, GPT-3, and VICUNA on VIP,
demonstrate the performance gap in these complex video reasoning tasks, and
encourage future work to prioritize language models for efficient and
generalized video reasoning.
- Abstract(参考訳): 視覚言語システムの自然言語による画像の推論能力は,近年のエキサイティングな結果が得られているが,ビデオ推論の能力は未検討のままである。
我々は,少数のキーフレームの逐次的理解としてフレーミングビデオ推論の動機付けを行い,映像処理の計算複雑性を緩和しつつ,視覚言語のパワーと頑健性を活用する。
この新たな応用を評価するために,ビデオチェーン・オブ・シントによるモデル推論能力の探索を目的とした推論時課題データセットであるVIPを導入する。
視覚的な説明的なシーンプレイに触発されて,キーフレーム記述の2つの形式を提案する。非構造化の密集したキャプションと,キーフレームのフォーカス,アクション,ムード,オブジェクト,設定(有名)を識別する構造化シーン記述である。
ビデオ・インフィルディングとビデオ予測という,複数の中間キーフレームを生成し,将来のキーフレームを予測する能力をテストする2つのタスクを提案する。
我々は,vip上でgpt-4,gpt-3,vicunaをベンチマークし,これらの複雑なビデオ推論タスクにおける性能ギャップを実証し,効率的かつ汎用的なビデオ推論のために言語モデルを優先する今後の作業を促す。
関連論文リスト
- VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。
GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。
フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T08:33:36Z) - FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - VideoDistill: Language-aware Vision Distillation for Video Question Answering [24.675876324457747]
本稿では,視覚知覚と回答生成プロセスの両方において,言語認識(すなわち目標駆動)の振る舞いを持つフレームワークであるVideoDistillを提案する。
VideoDistillは質問関連のビジュアル埋め込みからのみ回答を生成する。
我々は,様々な挑戦的ビデオ質問応答ベンチマークを実験的に評価し,VideoDistillは最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-01T07:44:24Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - A Challenging Multimodal Video Summary: Simultaneously Extracting and
Generating Keyframe-Caption Pairs from Video [20.579167394855197]
本稿では,タスクの訓練と評価を行うためのマルチモーダル映像要約タスク設定とデータセットを提案する。
対象のタスクは、所定のビデオを複数のキャプチャペアに要約し、それらをリスト可能な形式で表示して、ビデオコンテンツを素早く把握することである。
この課題は実践的な応用として有用であり、研究に値する極めて困難な問題を提示している。
論文 参考訳(メタデータ) (2023-12-04T02:17:14Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation [69.20173154096]
本研究では,2つの機能モジュールからなるフレームワーク,Motion Structure RetrievalとStructure-Guided Text-to-Video Synthesisを開発した。
最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。
第2のモジュールに対しては、構造と文字を柔軟に制御する制御可能なビデオ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-07-13T17:57:13Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。