論文の概要: What Do Latent Action Models Actually Learn?
- arxiv url: http://arxiv.org/abs/2506.15691v1
- Date: Tue, 27 May 2025 02:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.750108
- Title: What Do Latent Action Models Actually Learn?
- Title(参考訳): 潜在アクションモデルは実際に何を学ぶのか?
- Authors: Chuheng Zhang, Tim Pearce, Pushi Zhang, Kaixin Wang, Xiaoyu Chen, Wei Shen, Li Zhao, Jiang Bian,
- Abstract要約: ラテントアクションモデル(LAM)は、フレーム間の変化をラテントとして圧縮することにより、ラベルのないビデオからアクション関連の変化を学習することを目的としている。
本稿では,LAM学習の本質を包括する線形モデルを提案するとともに,この問題を解析的に考察する。
- 参考スコア(独自算出の注目度): 26.1770533810057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent action models (LAMs) aim to learn action-relevant changes from unlabeled videos by compressing changes between frames as latents. However, differences between video frames can be caused by controllable changes as well as exogenous noise, leading to an important concern -- do latents capture the changes caused by actions or irrelevant noise? This paper studies this issue analytically, presenting a linear model that encapsulates the essence of LAM learning, while being tractable.This provides several insights, including connections between LAM and principal component analysis (PCA), desiderata of the data-generating policy, and justification of strategies to encourage learning controllable changes using data augmentation, data cleaning, and auxiliary action-prediction. We also provide illustrative results based on numerical simulation, shedding light on the specific structure of observations, actions, and noise in data that influence LAM learning.
- Abstract(参考訳): ラテントアクションモデル(LAM)は、フレーム間の変化をラテントとして圧縮することにより、ラベルのないビデオからアクション関連の変化を学習することを目的としている。
しかし、ビデオフレームの違いは、制御可能な変更と外因性ノイズによって引き起こされるため、重要な関心事となる。
本稿では,LAM学習の本質を抽出可能ながらカプセル化する線形モデルを提案するとともに,LAMと主成分分析(PCA)の接続,データ生成ポリシーのデシラタ,データ強化,データクリーニング,補助行動予測による制御可能な変化の学習を促す戦略の正当性など,いくつかの知見を提供する。
また,LAM学習に影響を与えるデータにおける観察,行動,騒音の特定の構造に対する,数値シミュレーション,光の隠蔽などに基づく実測結果も提供する。
関連論文リスト
- Mitigating Spurious Correlations with Causal Logit Perturbation [22.281052412112263]
本研究では,個々のサンプルに対して因果ロジット摂動を発生させた分類器を訓練するための新しい因果ロジット摂動(CLP)フレームワークを提案する。
このフレームワークは、オンラインのメタ学習ベースの学習アルゴリズムによって最適化され、人間の因果知識を利用して、反事実的および事実的両方の方法でメタデータを増強する。
論文 参考訳(メタデータ) (2025-05-21T08:21:02Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - PrivilegedDreamer: Explicit Imagination of Privileged Information for Rapid Adaptation of Learned Policies [7.376615925443845]
モデルに基づく強化学習フレームワークであるPrivlegedDreamerを紹介する。
5つのHIP-MDPタスクに関する実証分析により、PrivlegedDreamerは最先端のモデルベース、モデルフリー、do-main適応学習アルゴリズムより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-17T02:46:02Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning [80.44084021062105]
本稿では,非方向エッジで連結された2つの潜在結合変数を特徴とする,多モーダルデータに対する新しい潜在部分因果モデルを提案する。
特定の統計的仮定の下では、多モーダル・コントラッシブ・ラーニングによって学習された表現が、自明な変換までの潜在結合変数に対応することを示す。
事前トレーニングされたCLIPモデルの実験は、非絡み合った表現を具現化し、数ショットの学習を可能にし、さまざまな現実世界のデータセットにわたるドメインの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-09T07:18:06Z) - Unraveling the Temporal Dynamics of the Unet in Diffusion Models [33.326244121918634]
拡散モデルはガウスノイズをトレーニングデータに導入し、元のデータを反復的に再構築する。
この反復プロセスの中心は単一のUnetであり、生成を容易にするために時間ステップを越えて適応する。
近年の研究では, この生成過程における組成および脱臭相の存在が明らかにされている。
論文 参考訳(メタデータ) (2023-12-17T04:40:33Z) - Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。