論文の概要: Zero Shot Open-ended Video Inference
- arxiv url: http://arxiv.org/abs/2401.12471v1
- Date: Tue, 23 Jan 2024 03:45:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 16:53:50.012662
- Title: Zero Shot Open-ended Video Inference
- Title(参考訳): Zero Shotオープンエンドビデオ推論
- Authors: Ee Yeo Keat, Zhang Hao, Alexander Matyasko, Basura Fernando
- Abstract要約: ゼロショットオープンエンド推論タスクを実行するための適応可能なフレームワークを提案する。
我々の実験は、ゴール推論とアクション認識タスクのための様々なビデオアクションデータセットにまたがる。
特に,提案フレームワークは,行動認識タスクに効果的に一般化する能力を示す。
- 参考スコア(独自算出の注目度): 54.04466746939197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot open-ended inference on untrimmed videos poses a significant
challenge, especially when no annotated data is utilized to navigate the
inference direction. In this work, we aim to address this underexplored domain
by introducing an adaptable framework that efficiently combines both the frozen
vision-language (VL) model and off-the-shelf large language model (LLM) for
conducting zero-shot open-ended inference tasks without requiring any
additional training or fine-tuning. Our comprehensive experiments span various
video action datasets for goal inference and action recognition tasks. The
results demonstrate the framework's superior performance in goal inference
compared to conventional vision-language models in open-ended and close-ended
scenarios. Notably, the proposed framework exhibits the capability to
generalize effectively to action recognition tasks, underscoring its
versatility and potential contributions to advancing the video-based zero-shot
understanding.
- Abstract(参考訳): 未トリミングビデオにおけるゼロショットのオープンエンド推論は、特に推論方向をナビゲートするために注釈付きデータが使用されていない場合、大きな課題となる。
本研究では,凍結視覚言語モデル (VL) と既製の大規模言語モデル (LLM) を効率的に組み合わせて,追加のトレーニングや微調整を必要とせず,ゼロショットのオープンエンド推論タスクを実行する,適応可能なフレームワークを導入することを目的としている。
総合的な実験は、ゴール推論とアクション認識タスクのための様々なビデオアクションデータセットにまたがる。
その結果、オープンエンドおよびクローズエンドシナリオにおける従来の視覚言語モデルと比較して、ゴール推論におけるフレームワークの性能が優れていることが示された。
特に,提案フレームワークは,アクション認識タスクを効果的に一般化する能力を示し,映像に基づくゼロショット理解の促進にその汎用性と潜在的貢献を強調する。
関連論文リスト
- LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Vamos: Versatile Action Models for Video Understanding [25.03993572202632]
本稿では、個別のアクションラベルや自由形式のビデオキャプションなど、テキストベースの表現を再検討することを提案する。
そこで我々は,大規模言語モデルを用いた学習フレームワークである多目的行動モデル(Vamos)を提案する。
テキストベースの表現は、すべてのベンチマークにおいて一貫して競合性能を達成し、視覚的な埋め込みは、パフォーマンス改善に限界を与えない。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Knowledge Prompting for Few-shot Action Recognition [20.973999078271483]
本稿では,知識プロンプトと呼ばれるシンプルで効果的な手法を提案し,数発の分類のための強力な視覚言語モデルを提案する。
まず、アクションの大規模言語記述をテキスト提案として定義し、アクション知識ベースを構築する。
我々は、これらのテキスト提案をビデオフレームと共に事前学習された視覚言語モデルに入力し、各フレームに対する提案の一致するスコアを生成する。
6つのベンチマークデータセットに対する大規模な実験により、我々の手法は一般に最先端の性能を達成し、訓練のオーバーヘッドを0.001に減らした。
論文 参考訳(メタデータ) (2022-11-22T06:05:17Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Transforming Multi-Concept Attention into Video Summarization [36.85535624026879]
本稿では,複雑な映像データを用いた映像要約のための新しいアテンションベースフレームワークを提案する。
我々のモデルはラベル付きデータとラベルなしデータの両方に適用でき、実世界のアプリケーションに好適である。
論文 参考訳(メタデータ) (2020-06-02T06:23:50Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。