論文の概要: Multi-modal Knowledge Distillation-based Human Trajectory Forecasting
- arxiv url: http://arxiv.org/abs/2503.22201v1
- Date: Fri, 28 Mar 2025 07:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:36.116410
- Title: Multi-modal Knowledge Distillation-based Human Trajectory Forecasting
- Title(参考訳): マルチモーダルな知識蒸留に基づく人軌道予測
- Authors: Jaewoo Jeong, Seohee Lee, Daehee Park, Giwon Lee, Kuk-Jin Yoon,
- Abstract要約: 歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。
このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。
そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
- 参考スコア(独自算出の注目度): 35.060041571520024
- License:
- Abstract: Pedestrian trajectory forecasting is crucial in various applications such as autonomous driving and mobile robot navigation. In such applications, camera-based perception enables the extraction of additional modalities (human pose, text) to enhance prediction accuracy. Indeed, we find that textual descriptions play a crucial role in integrating additional modalities into a unified understanding. However, online extraction of text requires the use of VLM, which may not be feasible for resource-constrained systems. To address this challenge, we propose a multi-modal knowledge distillation framework: a student model with limited modality is distilled from a teacher model trained with full range of modalities. The comprehensive knowledge of a teacher model trained with trajectory, human pose, and text is distilled into a student model using only trajectory or human pose as a sole supplement. In doing so, we separately distill the core locomotion insights from intra-agent multi-modality and inter-agent interaction. Our generalizable framework is validated with two state-of-the-art models across three datasets on both ego-view (JRDB, SIT) and BEV-view (ETH/UCY) setups, utilizing both annotated and VLM-generated text captions. Distilled student models show consistent improvement in all prediction metrics for both full and instantaneous observations, improving up to ~13%. The code is available at https://github.com/Jaewoo97/KDTF.
- Abstract(参考訳): 歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。
このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。
実際、テキスト記述は、追加のモダリティを統一的な理解に統合する上で重要な役割を担っている。
しかし、テキストのオンライン抽出にはVLMが必須であり、リソース制約のあるシステムでは利用できない可能性がある。
この課題に対処するために,多モード知識蒸留フレームワークを提案する: 限られたモダリティを持つ学生モデルを,全範囲のモダリティで訓練した教師モデルから蒸留する。
トラジェクトリ、ヒューマンポーズ、テキストで訓練された教師モデルの総合的な知識は、唯一のサプリメントとして、トラジェクトリまたはヒューマンポーズのみを使用して学生モデルに蒸留される。
そこで我々は, エージェント内マルチモーダリティとエージェント間相互作用から, コアロコモーションの知見を別々に抽出した。
Ego-view (JRDB, SIT) と BEV-view (ETH/UCY) の2つのデータセットに対して, 注釈付きおよびVLM生成のテキストキャプションを用いて, 最先端の2つのフレームワークを検証した。
蒸留された学生モデルは、完全な観測と即時観測の両方で全ての予測指標を一貫した改善を示し、最大で13%改善した。
コードはhttps://github.com/Jaewoo97/KDTFで公開されている。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network [23.38434020807342]
交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)における重要な課題の1つである。
現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。
グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案し、様々な下流タスクをサポートするために、交通シーンの普遍的相互作用と推論を学習する。
論文 参考訳(メタデータ) (2024-04-16T03:34:35Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - XVO: Generalized Visual Odometry via Cross-Modal Self-Training [11.70220331540621]
XVOは、一般化された単眼視眼視(英語版)モデル(英語版)(VO)を訓練するための半教師付き学習法である。
単一のデータセット内の既知のキャリブレーションをよく研究する標準的な単分子VOアプローチとは対照的に、XVOは現実のスケールで相対的なポーズを回復するのを効率的に学習する。
そこで我々は,YouTubeで公開されている大量の非拘束・異質なダッシュカメラビデオから,自己学習による動作推定モデルを最適化した。
論文 参考訳(メタデータ) (2023-09-28T18:09:40Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Multimodal Distillation for Egocentric Action Recognition [41.821485757189656]
エゴセントリックなビデオ理解は、手動物体の相互作用をモデル化する。
CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。
しかし、それらの性能は補足的手がかりを提供する追加の入力モダリティを利用することによりさらに向上する。
この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。
論文 参考訳(メタデータ) (2023-07-14T17:07:32Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - CMD: Self-supervised 3D Action Representation Learning with Cross-modal
Mutual Distillation [130.08432609780374]
3D行動認識では、骨格のモダリティの間に豊富な相補的な情報が存在する。
本稿では,CMD(Cross-modal Mutual Distillation)フレームワークを提案する。
提案手法は,既存の自己管理手法より優れ,新しい記録を多数設定する。
論文 参考訳(メタデータ) (2022-08-26T06:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。