論文の概要: Look, Remember and Reason: Grounded reasoning in videos with language
models
- arxiv url: http://arxiv.org/abs/2306.17778v3
- Date: Mon, 22 Jan 2024 00:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 21:27:40.865721
- Title: Look, Remember and Reason: Grounded reasoning in videos with language
models
- Title(参考訳): Look, Remember and Reason: 言語モデルによるビデオの根拠的推論
- Authors: Apratim Bhattacharyya, Sunny Panchal, Mingu Lee, Reza Pourreza, Pulkit
Madan, Roland Memisevic
- Abstract要約: マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 5.3445140425713245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal language models (LM) have recently shown promising performance in
high-level reasoning tasks on videos. However, existing methods still fall
short in tasks like causal or compositional spatiotemporal reasoning over
actions, in which model predictions need to be grounded in fine-grained
low-level details, such as object motions and object interactions. In this
work, we propose training an LM end-to-end on low-level surrogate tasks,
including object detection, re-identification, and tracking, to endow the model
with the required low-level visual capabilities. We show that a two-stream
video encoder with spatiotemporal attention is effective at capturing the
required static and motion-based cues in the video. By leveraging the LM's
ability to perform the low-level surrogate tasks, we can cast reasoning in
videos as the three-step process of Look, Remember, Reason wherein visual
information is extracted using low-level visual skills step-by-step and then
integrated to arrive at a final answer. We demonstrate the effectiveness of our
framework on diverse visual reasoning tasks from the ACRE, CATER,
Something-Else and STAR datasets. Our approach is trainable end-to-end and
surpasses state-of-the-art task-specific methods across these tasks by a large
margin.
- Abstract(参考訳): マルチモーダル言語モデル(lm)は最近、ビデオ上の高レベル推論タスクで有望なパフォーマンスを示している。
しかし、既存の手法は、動作に対する因果的あるいは構成時空間的推論のようなタスクでは依然として不足しており、モデル予測は、オブジェクトの動きやオブジェクトの相互作用のような、きめ細かい低レベルの詳細に基礎を置く必要がある。
本研究では,オブジェクト検出,再識別,追跡などの低レベルのサロゲートタスクをlmエンドツーエンドで訓練し,必要となる低レベルの視覚能力をモデルに付与することを提案する。
時空間に注意を向けた2ストリームビデオエンコーダは,映像中の静的および動きに基づく手がかりを捉えるのに有効であることを示す。
低レベルのサロゲートタスクを実行するLMの能力を活用することで、低レベルのビジュアルスキルを用いて視覚情報を抽出し、最終回答に到達するための3ステップのプロセスとして、ビデオに推論をキャストすることができる。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
我々のアプローチは訓練可能なエンドツーエンドであり、これらのタスクにまたがる最先端のタスク固有メソッドを大きく超えています。
関連論文リスト
- TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object
Detection [21.11998015053674]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Momentor: Advancing Video Large Language Model with Fine-Grained
Temporal Reasoning [106.96340369164349]
本稿では,微細な時間的理解作業を実現するためのビデオLLMであるMomentorを提案する。
Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。
論文 参考訳(メタデータ) (2024-02-18T03:04:38Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Dense Video Object Captioning from Disjoint Supervision [74.29564964727813]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
我々のモデルはエンドツーエンドで訓練されており、空間的位置決め、追跡、キャプションのための異なるモジュールで構成されている。
我々のモデルは、VidSTGとVLNに基づく空間接地のための、最先端の専用モデルよりも優れています。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。