論文の概要: Artemis: Towards Referential Understanding in Complex Videos
- arxiv url: http://arxiv.org/abs/2406.00258v1
- Date: Sat, 1 Jun 2024 01:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 08:04:10.296897
- Title: Artemis: Towards Referential Understanding in Complex Videos
- Title(参考訳): Artemis: 複雑なビデオにおける参照理解を目指して
- Authors: Jihao Qiu, Yuan Zhang, Xi Tang, Lingxi Xie, Tianren Ma, Pengyu Yan, David Doermann, Qixiang Ye, Yunjie Tian,
- Abstract要約: 本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。
アルテミスはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。
新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。
- 参考スコア(独自算出の注目度): 61.756640718014154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos carry rich visual information including object description, action, interaction, etc., but the existing multimodal large language models (MLLMs) fell short in referential understanding scenarios such as video-based referring. In this paper, we present Artemis, an MLLM that pushes video-based referential understanding to a finer level. Given a video, Artemis receives a natural-language question with a bounding box in any video frame and describes the referred target in the entire video. The key to achieving this goal lies in extracting compact, target-specific video features, where we set a solid baseline by tracking and selecting spatiotemporal features from the video. We train Artemis on the newly established VideoRef45K dataset with 45K video-QA pairs and design a computationally efficient, three-stage training procedure. Results are promising both quantitatively and qualitatively. Additionally, we show that \model can be integrated with video grounding and text summarization tools to understand more complex scenarios. Code and data are available at https://github.com/qiujihao19/Artemis.
- Abstract(参考訳): ビデオには、オブジェクト記述、アクション、インタラクションなどを含む豊富な視覚情報が含まれているが、既存のマルチモーダルな大規模言語モデル(MLLM)は、ビデオベースの参照のような参照理解のシナリオでは不足している。
本稿では,ビデオに基づく参照理解をより微細なレベルに押し上げるMLLMであるArtemisを紹介する。
ビデオが与えられたとき、Artemisはどんなビデオフレームにもバウンディングボックスのある自然言語の質問を受け取り、ビデオ全体の中で参照対象を説明する。
この目標を達成するための鍵は、コンパクトでターゲット固有のビデオ特徴を抽出することであり、そこでは、ビデオから時空間の特徴を追跡して選択することで、安定したベースラインを設定する。
新たに確立されたVideoRef45Kデータセット上で,45KビデオQAペアを用いてArtemisをトレーニングし,計算効率のよい3段階トレーニング手順を設計する。
結果は量的にも質的にも有望です。
さらに,より複雑なシナリオを理解するために,ビデオグラウンドやテキスト要約ツールとの統合も可能であることを示す。
コードとデータはhttps://github.com/qiujihao19/Artemis.comで公開されている。
関連論文リスト
- VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Multi Sentence Description of Complex Manipulation Action Videos [3.7486111821201287]
ビデオの自動記述のための既存のアプローチは、主に一定レベルの詳細で単一の文を生成することに焦点を当てている。
この問題に対処するために,1つのハイブリッド統計フレームワークと1つのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-13T12:27:06Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。