論文の概要: Zero Shot Open-ended Video Inference
- arxiv url: http://arxiv.org/abs/2401.12471v1
- Date: Tue, 23 Jan 2024 03:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:53:50.012662
- Title: Zero Shot Open-ended Video Inference
- Title(参考訳): Zero Shotオープンエンドビデオ推論
- Authors: Ee Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando
- Abstract要約: ゼロショットオープンエンド推論タスクを実行するための適応可能なフレームワークを提案する。
我々の実験は、ゴール推論とアクション認識タスクのための様々なビデオアクションデータセットにまたがる。
特に,提案フレームワークは,行動認識タスクに効果的に一般化する能力を示す。
- 参考スコア(独自算出の注目度): 54.04466746939197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot open-ended inference on untrimmed videos poses a significant
challenge, especially when no annotated data is utilized to navigate the
inference direction. In this work, we aim to address this underexplored domain
by introducing an adaptable framework that efficiently combines both the frozen
vision-language (VL) model and off-the-shelf large language model (LLM) for
conducting zero-shot open-ended inference tasks without requiring any
additional training or fine-tuning. Our comprehensive experiments span various
video action datasets for goal inference and action recognition tasks. The
results demonstrate the framework's superior performance in goal inference
compared to conventional vision-language models in open-ended and close-ended
scenarios. Notably, the proposed framework exhibits the capability to
generalize effectively to action recognition tasks, underscoring its
versatility and potential contributions to advancing the video-based zero-shot
understanding.
- Abstract(参考訳): 未トリミングビデオにおけるゼロショットのオープンエンド推論は、特に推論方向をナビゲートするために注釈付きデータが使用されていない場合、大きな課題となる。
本研究では,凍結視覚言語モデル (VL) と既製の大規模言語モデル (LLM) を効率的に組み合わせて,追加のトレーニングや微調整を必要とせず,ゼロショットのオープンエンド推論タスクを実行する,適応可能なフレームワークを導入することを目的としている。
総合的な実験は、ゴール推論とアクション認識タスクのための様々なビデオアクションデータセットにまたがる。
その結果、オープンエンドおよびクローズエンドシナリオにおける従来の視覚言語モデルと比較して、ゴール推論におけるフレームワークの性能が優れていることが示された。
特に,提案フレームワークは,アクション認識タスクを効果的に一般化する能力を示し,映像に基づくゼロショット理解の促進にその汎用性と潜在的貢献を強調する。
関連論文リスト
- TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。
ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。
本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文 参考訳(メタデータ) (2024-11-17T13:08:29Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Self-Supervised Video Representation Learning with Motion-Contrastive
Perception [13.860736711747284]
モーションコントラスト知覚ネットワーク(MCPNet)
MCPNetは、MIP(Motion Information Perception)とCIP(Contrastive Instance Perception)の2つのブランチから構成される。
本手法は,現在最先端の視覚のみによる自己監督手法よりも優れています。
論文 参考訳(メタデータ) (2022-04-10T05:34:46Z) - UniVL: A Unified Video and Language Pre-Training Model for Multimodal
Understanding and Generation [76.12027504427708]
本稿では,マルチモーダル理解と生成のためのUnified Video and Language事前学習モデルUniVLを提案する。
2つのシングルモーダルエンコーダ、クロスエンコーダ、トランスフォーマーバックボーンを備えたデコーダを含む4つのコンポーネントから構成される。
ステージバイステージ事前学習(StagedP)と拡張ビデオ表現(EnhancedV)の2つの事前学習戦略を開発し、UniVLのトレーニングプロセスをより効果的にする。
論文 参考訳(メタデータ) (2020-02-15T10:03:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。