論文の概要: TrajTok: Learning Trajectory Tokens enables better Video Understanding
- arxiv url: http://arxiv.org/abs/2602.22779v1
- Date: Thu, 26 Feb 2026 09:15:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.616335
- Title: TrajTok: Learning Trajectory Tokens enables better Video Understanding
- Title(参考訳): TrajTok: トラジェクティブトークンの学習は、より良いビデオ理解を可能にする
- Authors: Chenhao Zheng, Jieyu Zhang, Jianing Zhang, Weikai Huang, Ashutosh Kumar, Quan Kong, Oncel Tuzel, Chun-Liang Li, Ranjay Krishna,
- Abstract要約: ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
- 参考スコア(独自算出の注目度): 63.1260672430712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization in video models, typically through patchification, generates an excessive and redundant number of tokens. This severely limits video efficiency and scalability. While recent trajectory-based tokenizers offer a promising solution by decoupling video duration from token count, they rely on complex external segmentation and tracking pipelines that are slow and task-agnostic. We propose TrajTok, an end-to-end video tokenizer module that is fully integrated and co-trained with video models for a downstream objective, dynamically adapting its token granularity to semantic complexity, independent of video duration. TrajTok contains a unified segmenter that performs implicit clustering over pixels in both space and time to directly produce object trajectories in a single forward pass. By prioritizing downstream adaptability over pixel-perfect segmentation fidelity, TrajTok is lightweight and efficient, yet empirically improves video understanding performance. With TrajTok, we implement a video CLIP model trained from scratch (TrajViT2). It achieves the best accuracy at scale across both classification and retrieval benchmarks, while maintaining efficiency comparable to the best token-merging methods. TrajTok also proves to be a versatile component beyond its role as a tokenizer. We show that it can be seamlessly integrated as either a probing head for pretrained visual features (TrajAdapter) or an alignment connector in vision-language models (TrajVLM) with especially strong performance in long-video reasoning.
- Abstract(参考訳): ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
これにより、ビデオの効率とスケーラビリティが大幅に制限される。
最近のトラジェクトリベースのトークンライザは、トークンカウントからビデオ期間を分離することで、有望なソリューションを提供する一方で、複雑な外部セグメンテーションと、タスクに依存しないトラッキングパイプラインに依存している。
ビデオモデルと完全に統合され、下流の目的のために、ビデオモデルと協調して訓練され、そのトークンの粒度をビデオの長さによらず、セマンティックな複雑さに動的に適応する、エンドツーエンドのビデオトークン化モジュールであるTrajTokを提案する。
TrajTokには、空間と時間の両方でピクセル上の暗黙のクラスタリングを実行し、単一の前方パスでオブジェクトの軌跡を直接生成する統合セグメンタが含まれている。
画素完全セグメンテーションの忠実度に対する下流適応性を優先することにより、TrajTokは軽量で効率的であるが、ビデオ理解性能を実証的に改善する。
TrajTokでは、スクラッチからトレーニングしたCLIPモデル(TrajViT2)を実装しています。
最高のトークンマージ手法に匹敵する効率を維持しながら、分類と検索のベンチマークの両方でスケールで最高の精度を達成する。
TrajTokはまた、トークン化者としての役割を超えて、汎用的なコンポーネントであることを証明している。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
関連論文リスト
- FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding [55.700832127331324]
FLoCは、施設位置関数に基づく効率的なビジュアルトークン圧縮フレームワークである。
本手法は,トークンのコンパクトな部分集合を迅速に選択することにより,顕著な効率向上を実現する。
私たちのアプローチは、トレーニング不要、モデル非依存、クエリ非依存で、汎用的なソリューションを提供しています。
論文 参考訳(メタデータ) (2025-10-31T17:29:39Z) - One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory [25.726492556054904]
固定パッチではなく,汎視的サブオブジェクトトラジェクトリに基づいてトークンを整理するパラダイムであるグラウンドド・ビデオ・トークン化を導入する。
本稿では,オブジェクトのトラジェクトリを抽出し,意味的に意味のあるトークンに変換するビデオエンコーダTrajViTを提案する。
現代のビデオLLM用ビデオエンコーダとしてTrajViTをViT3Dよりも強力なモデルとして示す。
論文 参考訳(メタデータ) (2025-05-29T16:25:35Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Beyond Training: Dynamic Token Merging for Zero-Shot Video Understanding [11.211803499867639]
ゼロショットビデオ理解のための新しい動的トークンマージフレームワークであるDYTOを提案する。
DYTOは階層的なフレーム選択と二部トークンマージ戦略を統合し、動的に鍵フレームをクラスタ化し、トークンシーケンスを選択的に圧縮する。
実験によりDYTOの有効性が示され、微調整法と訓練不要法の両方と比較して優れた性能が得られた。
論文 参考訳(メタデータ) (2024-11-21T18:30:11Z) - CenterCLIP: Token Clustering for Efficient Text-Video Retrieval [67.21528544724546]
CLIPでは、ビデオ内の連続するフレームの冗長性のために、離散的な視覚トークンシーケンスを生成する重要な視覚トークン化プロセスが、多くの均一なトークンを生成する。
これにより、計算コストが大幅に増加し、Webアプリケーションにおけるビデオ検索モデルの展開が妨げられる。
本稿では,最も代表的なトークンを抽出し,非意味トークンをドロップするマルチセグメントトークンクラスタリングアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-05-02T12:02:09Z) - CompFeat: Comprehensive Feature Aggregation for Video Instance
Segmentation [67.17625278621134]
ビデオインスタンスのセグメンテーションは、特定のビデオのそれぞれのオブジェクトを検出し、セグメンテーションし、追跡する必要がある複雑なタスクです。
従来のアプローチは、オブジェクトの検出、セグメンテーション、追跡にのみシングルフレーム機能を使用します。
本稿では,時間的および空間的コンテキスト情報を用いて,フレームレベルとオブジェクトレベルでの機能を洗練する新しい包括的特徴集約アプローチ(compfeat)を提案する。
論文 参考訳(メタデータ) (2020-12-07T00:31:42Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。