論文の概要: Token Bottleneck: One Token to Remember Dynamics
- arxiv url: http://arxiv.org/abs/2507.06543v1
- Date: Wed, 09 Jul 2025 04:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.474068
- Title: Token Bottleneck: One Token to Remember Dynamics
- Title(参考訳): Token Bottleneck:ダイナミクスを思い出す1つの方法
- Authors: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun,
- Abstract要約: Token Bottleneck(ToBo)は、シーンをボトルネックトークンに絞り込む、自己教師型学習パイプラインである。
ToBoは、最小限のパッチをヒントとして、その後のシーンを予測する。
- 参考スコア(独自算出の注目度): 42.71429726504819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic manipulation. In this paper, we introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised learning pipeline that squeezes a scene into a bottleneck token and predicts the subsequent scene using minimal patches as hints. The ToBo pipeline facilitates the learning of sequential scene representations by conservatively encoding the reference scene into a compact bottleneck token during the squeeze step. In the expansion step, we guide the model to capture temporal dynamics by predicting the target scene using the bottleneck token along with few target patches as hints. This design encourages the vision backbone to embed temporal dependencies, thereby enabling understanding of dynamic transitions across scenes. Extensive experiments in diverse sequential tasks, including video label propagation and robot manipulation in simulated environments demonstrate the superiority of ToBo over baselines. Moreover, deploying our pre-trained model on physical robots confirms its robustness and effectiveness in real-world environments. We further validate the scalability of ToBo across different model scales.
- Abstract(参考訳): 動的シーンからコンパクトかつ時間的に認識された視覚表現を導出することは、視覚追跡やロボット操作といった逐次的なシーン理解タスクの実行に不可欠である。
本稿では,Token Bottleneck(ToBo)について紹介する。これは単純だが直感的な自己教師型学習パイプラインで,シーンをボトルネックトークンに絞り込み,最小限のパッチをヒントとしてその後のシーンを予測する。
ToBoパイプラインは、圧縮ステップ中に参照シーンをコンパクトなボトルネックトークンに保守的に符号化することで、シーケンシャルなシーン表現の学習を容易にする。
拡張ステップでは、ボトルネックトークンと少数のターゲットパッチをヒントとして、ターゲットシーンを予測することにより、時間的ダイナミクスを捕捉するモデルを導出する。
この設計は視覚のバックボーンに時間的依存関係を埋め込むことを奨励し、シーン間の動的遷移の理解を可能にする。
ビデオラベルの伝搬やシミュレーション環境でのロボット操作など,多様なシーケンシャルなタスクにおける広範囲な実験は,ToBoがベースラインよりも優れていることを示す。
さらに,ロボットに事前学習したモデルを配置することで,実環境におけるロバスト性や有効性を確認することができる。
さらに、さまざまなモデルスケールにわたるToBoのスケーラビリティを検証する。
関連論文リスト
- Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Learning Appearance and Motion Cues for Panoptic Tracking [13.062016289815057]
パノプティカルトラッキングは、パノプティカルセグメンテーションにインスタンストラッキングを統合することで、ビデオのピクセルレベルのシーンを可能にする。
本稿では、情報とインスタンス固有の外観と動作特徴を同時にキャプチャする、パノプティカルトラッキングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-12T09:32:29Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes [8.64158103104882]
本稿では,物体のセグメンテーションと視線挙動を相互接続的にシミュレーションする計算モデルを提案する。
このモデルでは,サスカディック・モーメントや事前サカディック・アテンションなどの拡張が可能であることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:20:34Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。