論文の概要: Privileged Foresight Distillation: Zero-Cost Future Correction for World Action Models
- arxiv url: http://arxiv.org/abs/2604.25859v2
- Date: Sat, 02 May 2026 20:40:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 14:09:06.978167
- Title: Privileged Foresight Distillation: Zero-Cost Future Correction for World Action Models
- Title(参考訳): 主観的蒸留-世界行動モデルにおけるゼロコスト未来補正-
- Authors: Pengcheng Fang, Hongli Chen, Xiaohao Cai,
- Abstract要約: 共同訓練は, 将来の観察が行動認知に課す行動条件付き補正を誘導することを示す。
本稿では,emphPrivileged Foresight Distillation (PFD)について紹介する。
- 参考スコア(独自算出の注目度): 1.5821415295352772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World action models jointly predict future video and action during training, raising an open question about what role the future-prediction branch actually plays. A recent finding shows that this branch can be removed at inference with little to no loss on common manipulation benchmarks, suggesting that future information may act merely as a regularizer on the shared visual backbone. We propose instead that joint training induces an action-conditioned correction that privileged future observations impose on action denoising, and that current-only policies capture this correction only partially. Making the account precise, we formulate privileged foresight as a residual in the action-denoising direction -- the difference between what a model predicts given the true future and what it predicts given only the current frame -- and introduce \emph{Privileged Foresight Distillation (PFD)}, which transfers this residual from a training-time teacher into a small adapter on a current-only student. The teacher and student share the same backbone and differ only in the attention mask over video tokens; future video is never generated at inference. Controlled experiments verify that this gain reflects a genuine future-conditioned correction rather than a side effect of capacity or regularization. Empirically, PFD achieves consistent improvements on LIBERO and RoboTwin manipulation benchmarks while preserving the current-only inference interface at negligible added latency. This view reframes the role of future information in world action models: not as a target to predict, nor as a regularizer to absorb, but as a compressible correction to be distilled.
- Abstract(参考訳): 世界アクションモデルは、トレーニング中の将来のビデオとアクションを共同で予測し、将来の予測ブランチが実際に果たす役割についてオープンな疑問を提起する。
最近の発見では、このブランチは一般的な操作ベンチマークでほとんど、あるいは全く失われずに、推論時に削除可能であることが示されており、将来の情報は単に共有視覚バックボーンの正規化として機能する可能性がある。
そこで我々は,協調訓練により,将来の観察が行動認知に課す行動条件付き補正を誘導し,現在のみの政策がこの補正を部分的に捉えていることを提案する。
正確な説明として、モデルが真の未来を予測したものと現在のフレームのみを予測するものとの違いであるアクションデノベーション方向の残差として、特権的フォレストを定式化し、トレーニング時の教師から現在の学生の小さなアダプタにこの残差を転送する「emph{Privileged Foresight Distillation (PFD)}を導入します。
教師と生徒は同じバックボーンを共有し、ビデオトークンよりも注意マスクでのみ異なる。
制御された実験は、この利得がキャパシティや正規化の副作用ではなく、真の将来条件の補正を反映していることを検証する。
実証的には、PFDはLIBEROとRoboTwinの操作ベンチマークを一貫した改善を実現し、現在の唯一の推論インターフェースを無視可能な追加レイテンシで保持する。
この見解は、世界行動モデルにおける将来の情報の役割を、予測対象としてではなく、吸収対象の正規化剤としてではなく、蒸留対象の圧縮可能な補正として再定義する。
関連論文リスト
- Learning Through Retrospection: Improving Trajectory Prediction for Automated Driving with Error Feedback [41.94295877935867]
自動走行では、周囲の車両の軌道予測がシーンダイナミクスの推論をサポートし、エゴ車両の安全な計画を可能にする。
既存のモデルは、観測された情報に基づいて将来の軌跡を予測するための瞬間的なタスクとして予測を扱う。
提案手法は,推論中の誤差を補正し,再現する手法である。
論文 参考訳(メタデータ) (2025-04-18T16:35:12Z) - Causal Self-supervised Pretrained Frontend with Predictive Code for Speech Separation [42.63061599979695]
音声分離(SS)は、複数話者の音声混在を単一話者の音声ストリームに切り離そうとする。
過去と現在の情報のみに依存する因果分離モデルは、リアルタイムストリーミングに有望なソリューションを提供する。
本稿では,将来の情報を因果モデルに暗黙的に組み込むことで,トレーニングと実行時の推論のミスマッチを軽減するための小説を紹介する。
論文 参考訳(メタデータ) (2025-04-03T06:18:30Z) - Generative Regression Based Watch Time Prediction for Short-Video Recommendation [36.95095097454143]
短いビデオレコメンデーションシステムでは、時計の時間予測が重要なタスクとして現れている。
最近の研究は、連続時計時間推定を正規回帰タスクに変換することによって、これらの問題に対処しようとしている。
本稿では,WTPをシーケンス生成タスクとして再構成する新しい生成回帰(GR)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T16:48:55Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [56.48290708901531]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。
この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文 参考訳(メタデータ) (2021-04-11T15:19:30Z) - Unsupervised Video Representation Learning by Bidirectional Feature
Prediction [16.074111448606512]
本稿では,特徴予測を用いた自己教師型映像表現学習手法を提案する。
我々は、観測されていない過去のフレームから発生する監視信号は、将来のフレームから生じるものと相補的であると論じる。
両信号の利用により,下流の行動認識タスクにおいて学習した表現が強化されることを実証的に示す。
論文 参考訳(メタデータ) (2020-11-11T19:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。