論文の概要: Token Bottleneck: One Token to Remember Dynamics
- arxiv url: http://arxiv.org/abs/2507.06543v1
- Date: Wed, 09 Jul 2025 04:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.474068
- Title: Token Bottleneck: One Token to Remember Dynamics
- Title(参考訳): Token Bottleneck:ダイナミクスを思い出す1つの方法
- Authors: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun,
- Abstract要約: Token Bottleneck(ToBo)は、シーンをボトルネックトークンに絞り込む、自己教師型学習パイプラインである。
ToBoは、最小限のパッチをヒントとして、その後のシーンを予測する。
- 参考スコア(独自算出の注目度): 42.71429726504819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic manipulation. In this paper, we introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised learning pipeline that squeezes a scene into a bottleneck token and predicts the subsequent scene using minimal patches as hints. The ToBo pipeline facilitates the learning of sequential scene representations by conservatively encoding the reference scene into a compact bottleneck token during the squeeze step. In the expansion step, we guide the model to capture temporal dynamics by predicting the target scene using the bottleneck token along with few target patches as hints. This design encourages the vision backbone to embed temporal dependencies, thereby enabling understanding of dynamic transitions across scenes. Extensive experiments in diverse sequential tasks, including video label propagation and robot manipulation in simulated environments demonstrate the superiority of ToBo over baselines. Moreover, deploying our pre-trained model on physical robots confirms its robustness and effectiveness in real-world environments. We further validate the scalability of ToBo across different model scales.
- Abstract(参考訳): 動的シーンからコンパクトかつ時間的に認識された視覚表現を導出することは、視覚追跡やロボット操作といった逐次的なシーン理解タスクの実行に不可欠である。
本稿では,Token Bottleneck(ToBo)について紹介する。これは単純だが直感的な自己教師型学習パイプラインで,シーンをボトルネックトークンに絞り込み,最小限のパッチをヒントとしてその後のシーンを予測する。
ToBoパイプラインは、圧縮ステップ中に参照シーンをコンパクトなボトルネックトークンに保守的に符号化することで、シーケンシャルなシーン表現の学習を容易にする。
拡張ステップでは、ボトルネックトークンと少数のターゲットパッチをヒントとして、ターゲットシーンを予測することにより、時間的ダイナミクスを捕捉するモデルを導出する。
この設計は視覚のバックボーンに時間的依存関係を埋め込むことを奨励し、シーン間の動的遷移の理解を可能にする。
ビデオラベルの伝搬やシミュレーション環境でのロボット操作など,多様なシーケンシャルなタスクにおける広範囲な実験は,ToBoがベースラインよりも優れていることを示す。
さらに,ロボットに事前学習したモデルを配置することで,実環境におけるロバスト性や有効性を確認することができる。
さらに、さまざまなモデルスケールにわたるToBoのスケーラビリティを検証する。
関連論文リスト
- SceneAware: Scene-Constrained Pedestrian Trajectory Prediction with LLM-Guided Walkability [3.130722489512822]
SceneAwareは、軌跡予測精度を高めるためにシーン理解を明示的に組み込んだ新しいフレームワークである。
我々はTransformerベースのトラジェクトリエンコーダとViTベースのシーンエンコーダを組み合わせることで、時間的ダイナミクスと空間的制約の両方をキャプチャする。
本分析は, 各種歩行者運動において, モデルが一貫して良好に動作していることを示す。
論文 参考訳(メタデータ) (2025-06-17T03:11:31Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Learning Appearance and Motion Cues for Panoptic Tracking [13.062016289815057]
パノプティカルトラッキングは、パノプティカルセグメンテーションにインスタンストラッキングを統合することで、ビデオのピクセルレベルのシーンを可能にする。
本稿では、情報とインスタンス固有の外観と動作特徴を同時にキャプチャする、パノプティカルトラッキングのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-12T09:32:29Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - A Robotics-Inspired Scanpath Model Reveals the Importance of Uncertainty and Semantic Object Cues for Gaze Guidance in Dynamic Scenes [8.64158103104882]
本稿では,物体のセグメンテーションと視線挙動を相互接続的にシミュレーションする計算モデルを提案する。
このモデルでは,サスカディック・モーメントや事前サカディック・アテンションなどの拡張が可能であることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:20:34Z) - Skeleton2vec: A Self-supervised Learning Framework with Contextualized
Target Representations for Skeleton Sequence [56.092059713922744]
予測対象として高レベルな文脈化機能を使用することで,優れた性能が得られることを示す。
具体的には、シンプルで効率的な3D行動表現学習フレームワークであるSkeleton2vecを提案する。
提案するSkeleton2vecは,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-01-01T12:08:35Z) - Self-supervised Sequential Information Bottleneck for Robust Exploration
in Deep Reinforcement Learning [28.75574762244266]
本研究では、圧縮された時間的コヒーレントな表現を学習するためのシーケンシャルな情報ボトルネックの目標について紹介する。
ノイズの多い環境での効率的な探索のために,タスク関連状態の新規性を捉える本質的な報奨を更に構築する。
論文 参考訳(メタデータ) (2022-09-12T15:41:10Z) - Weakly Supervised Learning of Rigid 3D Scene Flow [81.37165332656612]
本研究では,剛体体として動くエージェント群によって説明できる3次元シーンを多用したデータ駆動シーンフロー推定アルゴリズムを提案する。
4種類の自律運転データセットにおいて,提案手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-17T18:58:02Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。