論文の概要: VideoOrion: Tokenizing Object Dynamics in Videos
- arxiv url: http://arxiv.org/abs/2411.16156v1
- Date: Mon, 25 Nov 2024 07:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:22:58.348685
- Title: VideoOrion: Tokenizing Object Dynamics in Videos
- Title(参考訳): VideoOrion: ビデオでオブジェクトのダイナミクスを起動する
- Authors: Yicheng Feng, Yijiang Li, Wanpeng Zhang, Sipeng Zheng, Zongqing Lu,
- Abstract要約: ビデオ内のキーセマンティック情報を明示的にキャプチャするビデオ大言語モデル(Video Large Language Model: Video-LLM)を提案する。
VideoOrionでは、専門的なビジョンモデルを使用して、検出-セグメンション-トラックパイプラインを通じてオブジェクトのダイナミクスを抽出する。
本手法は,高次元映像データをセマンティックトークンに効率よく圧縮するビデオLLMにおける永続的課題に対処する。
- 参考スコア(独自算出の注目度): 33.26917406964148
- License:
- Abstract: We present VideoOrion, a Video Large Language Model (Video-LLM) that explicitly captures the key semantic information in videos--the spatial-temporal dynamics of objects throughout the videos. VideoOrion employs expert vision models to extract object dynamics through a detect-segment-track pipeline, encoding them into a set of object tokens by aggregating spatial-temporal object features. Our method addresses the persistent challenge in Video-LLMs of efficiently compressing high-dimensional video data into semantic tokens that are comprehensible to LLMs. Compared to prior methods which resort to downsampling the original video or aggregating visual tokens using resamplers, leading to information loss and entangled semantics, VideoOrion not only offers a more natural and efficient way to derive compact, disentangled semantic representations but also enables explicit object modeling of video content with minimal computational cost. Moreover, the introduced object tokens naturally allow VideoOrion to accomplish video-based referring tasks. Experimental results show that VideoOrion can learn to make good use of the object tokens, and achieves competitive results on both general video question answering and video-based referring benchmarks.
- Abstract(参考訳): 本稿ではビデオ内の重要な意味情報を明示的にキャプチャするビデオ大言語モデル(Video-LLM)について紹介する。
VideoOrionでは、専門的な視覚モデルを使用して、検出・セグメントトラックパイプラインを通じてオブジェクトのダイナミクスを抽出し、空間的・時間的オブジェクトの特徴を集約することでオブジェクトトークンのセットにエンコードする。
本稿では,高次元映像データをLLMに理解可能な意味的トークンに効率よく圧縮するビデオLLMの永続的課題に対処する。
元のビデオのダウンサンプリングや、リサンプラーを使ったビジュアルトークンの集約、情報損失や絡み合ったセマンティクスといった従来の手法と比較して、VideoOrionは、コンパクトで非絡み合ったセマンティクス表現を導出するより自然で効率的な方法を提供するだけでなく、最小の計算コストでビデオコンテンツの明示的なオブジェクトモデリングを可能にする。
さらに、紹介されたオブジェクトトークンにより、VideoOrionはビデオベースの参照タスクを自然に達成できる。
実験結果から,VideoOrionはオブジェクトトークンの有効活用を学習し,一般的なビデオ質問応答とビデオベースの参照ベンチマークの両方で競合する結果が得られることがわかった。
関連論文リスト
- One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - Rethinking Image-to-Video Adaptation: An Object-centric Perspective [61.833533295978484]
本稿では,オブジェクト中心の視点から,画像から映像への適応戦略を提案する。
人間の知覚に触発されて、物体発見のプロキシタスクを画像-映像間移動学習に統合する。
論文 参考訳(メタデータ) (2024-07-09T13:58:10Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Retrieval-based Video Language Model for Efficient Long Video Question
Answering [39.474247695753725]
本稿では,検索型ビデオ言語モデル(R-VLM)を提案する。
具体的には、質問(クエリ)と長いビデオから、我々のモデルは最も関連性の高い$K$のビデオチャンクを特定し、選択する。
実験の結果,長編動画の編集におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-08T09:48:36Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z) - SynthRef: Generation of Synthetic Referring Expressions for Object
Segmentation [7.690965189591581]
ビデオオブジェクトセグメンテーションのための合成参照表現を用いた最初の大規模データセットを提示・配布する。
実験により, 合成参照表現を用いて学習することにより, モデルが様々なデータセットにまたがって一般化する能力を向上できることが実証された。
論文 参考訳(メタデータ) (2021-06-08T14:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。