論文の概要: One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory
- arxiv url: http://arxiv.org/abs/2505.23617v2
- Date: Wed, 09 Jul 2025 18:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:08.080696
- Title: One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory
- Title(参考訳): One Trajectory, One Token: Panoptic Sub-Object Trajectory によるグラウンドドビデオトークン化
- Authors: Chenhao Zheng, Jieyu Zhang, Mohammadreza Salehi, Ziqi Gao, Vishnu Iyengar, Norimasa Kobori, Quan Kong, Ranjay Krishna,
- Abstract要約: 固定パッチではなく,汎視的サブオブジェクトトラジェクトリに基づいてトークンを整理するパラダイムであるグラウンドド・ビデオ・トークン化を導入する。
本稿では,オブジェクトのトラジェクトリを抽出し,意味的に意味のあるトークンに変換するビデオエンコーダTrajViTを提案する。
現代のビデオLLM用ビデオエンコーダとしてTrajViTをViT3Dよりも強力なモデルとして示す。
- 参考スコア(独自算出の注目度): 25.726492556054904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective video tokenization is critical for scaling transformer models for long videos. Current approaches tokenize videos using space-time patches, leading to excessive tokens and computational inefficiencies. The best token reduction strategies degrade performance and barely reduce the number of tokens when the camera moves. We introduce grounded video tokenization, a paradigm that organizes tokens based on panoptic sub-object trajectories rather than fixed patches. Our method aligns with fundamental perceptual principles, ensuring that tokenization reflects scene complexity rather than video duration. We propose TrajViT, a video encoder that extracts object trajectories and converts them into semantically meaningful tokens, significantly reducing redundancy while maintaining temporal coherence. Trained with contrastive learning, TrajViT significantly outperforms space-time ViT (ViT3D) across multiple video understanding benchmarks, e.g., TrajViT outperforms ViT3D by a large margin of 6% top-5 recall in average at video-text retrieval task with 10x token deduction. We also show TrajViT as a stronger model than ViT3D for being the video encoder for modern VideoLLM, obtaining an average of 5.2% performance improvement across 6 VideoQA benchmarks while having 4x faster training time and 18x less inference FLOPs. TrajViT is the first efficient encoder to consistently outperform ViT3D across diverse video analysis tasks, making it a robust and scalable solution.
- Abstract(参考訳): ビデオの効果的なトークン化は、長いビデオのトランスフォーマーモデルのスケーリングに不可欠である。
現在のアプローチでは、時空パッチを使ってビデオをトークン化し、過剰なトークンと計算の非効率をもたらす。
最高のトークン削減戦略は性能を低下させ、カメラが動くとトークンの数が少なくなる。
固定パッチではなく,汎視的サブオブジェクトトラジェクトリに基づいてトークンを整理するパラダイムであるグラウンドド・ビデオ・トークン化を導入する。
我々の手法は基本的な知覚原理と一致し、トークン化はビデオの時間よりもシーンの複雑さを反映する。
本稿では,オブジェクトトラジェクトリを抽出して意味的に意味のあるトークンに変換し,時間的コヒーレンスを維持しながら冗長性を著しく低減するビデオエンコーダTrajViTを提案する。
対照的な学習によってトレーニングされたTrajViTは、複数のビデオ理解ベンチマーク(例:TrajViT)で空間時間ViT(ViT3D)を著しく上回り、ViT3Dは10倍のトークン推論を伴うビデオテキスト検索タスクにおいて、平均6%のトップ5リコールのマージンで上回ります。
また、TrajViTは、最新のビデオLLMの動画エンコーダであるVT3Dよりも強力なモデルであり、6つのビデオQAベンチマークで平均5.2%の性能向上を実現し、4倍高速なトレーニング時間と18倍少ない推論FLOPを実現した。
TrajViTは、様々なビデオ分析タスクでViT3Dを一貫して上回り、堅牢でスケーラブルなソリューションとなった最初の効率的なエンコーダである。
関連論文リスト
- Make Your ViT-based Multi-view 3D Detectors Faster via Token Compression [78.93023152602525]
スロー推論速度は、自律運転のようなリアルタイムの要求の高いタスクにマルチビュー3D検出器を配置する上で最も重要な問題の一つである。
TokenCompression3D (ToC3D) と呼ばれるシンプルで効果的な方法を提案する。
提案手法は, 最大30%の推論スピードアップで最近のSOTAの性能をほぼ維持できる。
論文 参考訳(メタデータ) (2024-09-01T06:58:08Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。