論文の概要: Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers
- arxiv url: http://arxiv.org/abs/2406.11624v3
- Date: Thu, 05 Dec 2024 11:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:37.904381
- Title: Words in Motion: Extracting Interpretable Control Vectors for Motion Transformers
- Title(参考訳): 動作中の単語:動作変換器の解釈可能な制御ベクトルの抽出
- Authors: Omer Sahin Tas, Royden Wagner,
- Abstract要約: トランスフォーマーベースのモデルは、解釈が難しい隠された状態を生成する。
我々は線形プローブを用いて、隠れ状態における解釈可能な運動特徴に対する神経崩壊を測定する。
提案手法は, 機械的解釈可能性とゼロショットの一般化により, 未知のデータセット特性を実現する。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License:
- Abstract: Transformer-based models generate hidden states that are difficult to interpret. In this work, we aim to interpret these hidden states and control them at inference, with a focus on motion forecasting. We use linear probes to measure neural collapse towards interpretable motion features in hidden states. High probing accuracy implies meaningful directions and distances between hidden states of opposing features, which we use to fit interpretable control vectors for activation steering at inference. To optimize our control vectors, we use sparse autoencoders with fully-connected, convolutional, MLPMixer layers and various activation functions. Notably, we show that enforcing sparsity in hidden states leads to a more linear relationship between control vector temperatures and forecasts. Our approach enables mechanistic interpretability and zero-shot generalization to unseen dataset characteristics with negligible computational overhead. Our implementation is available at https://github.com/kit-mrt/future-motion
- Abstract(参考訳): トランスフォーマーベースのモデルは、解釈が難しい隠された状態を生成する。
本研究では,これらの隠れ状態の解釈と推論による制御を目標とし,動き予測に焦点をあてる。
我々は線形プローブを用いて、隠れ状態における解釈可能な運動特徴に対する神経崩壊を測定する。
高い探索精度は、対立する特徴の隠れ状態間の有意な方向と距離を意味しており、これは推論時のアクティベーションステアリングに解釈可能な制御ベクトルに適合するために用いられる。
制御ベクトルを最適化するために、完全に接続された畳み込み型MLPMixer層と様々なアクティベーション関数を持つスパースオートエンコーダを用いる。
特に,隠れ状態における空間空間の分散が,制御ベクトル温度と予測との間により線形な関係を生じさせることを示す。
提案手法は,機械的解釈可能性とゼロショットの一般化を,無視可能な計算オーバーヘッドを伴うデータセット特性の発見に有効である。
私たちの実装はhttps://github.com/kit-mrt/future-motionで利用可能です。
関連論文リスト
- Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - LeTFuser: Light-weight End-to-end Transformer-Based Sensor Fusion for
Autonomous Driving with Multi-Task Learning [16.241116794114525]
本稿では,複数のRGB-Dカメラ表現を融合させるアルゴリズムであるLeTFuserを紹介する。
認識と制御を同時に行うためには,マルチタスク学習を利用する。
論文 参考訳(メタデータ) (2023-10-19T20:09:08Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Extracting Latent Steering Vectors from Pretrained Language Models [14.77762401765532]
本研究では,言語モデルデコーダから直接潜在ベクトルを抽出できることを示す。
実験により、ステアリングベクトルが存在し、それが言語モデルの隠れ状態に追加されると、ほぼ完璧にターゲット文を生成することが示された。
テキスト類似度ベンチマークで評価すると, ステアリングベクトル間の距離が文類似度を反映していることが分かる。
論文 参考訳(メタデータ) (2022-05-10T19:04:37Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - Inverse reinforcement learning for autonomous navigation via
differentiable semantic mapping and planning [20.66819092398541]
本稿では,距離と意味カテゴリー観測を用いた自律ナビゲーションのための逆強化学習について述べる。
観測シーケンスから意味的カテゴリ確率を推測するマップエンコーダと、意味論的特徴に対するディープニューラルネットワークとして定義されるコストエンコーダを開発している。
本研究では,建物,歩道,路面のセマンティックな観察に頼って,自律走行型CARLAシミュレータの交通ルールを追従する手法を提案する。
論文 参考訳(メタデータ) (2021-01-01T07:41:08Z) - Learning Navigation Costs from Demonstration with Semantic Observations [24.457042947946025]
本稿では,自律型ロボットナビゲーションにおける意味的観察を用いた逆強化学習(IRL)に焦点を当てた。
観測シーケンスからセマンティッククラス確率を推定するマップエンコーダと、セマンティックな特徴よりもディープニューラルネットワークとして定義されるコストエンコーダを開発する。
提案手法は,自動車,歩道,道路路面のセマンティックな観察に頼って,自律走行CARLAシミュレータにおける交通ルールに従うことを学習していることを示す。
論文 参考訳(メタデータ) (2020-06-09T04:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。