論文の概要: Segment to Focus: Guiding Latent Action Models in the Presence of Distractors
- arxiv url: http://arxiv.org/abs/2602.02259v1
- Date: Mon, 02 Feb 2026 16:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.274204
- Title: Segment to Focus: Guiding Latent Action Models in the Presence of Distractors
- Title(参考訳): セグメント・トゥ・フォーカス:ディトラクタ存在下での潜在行動モデル指導
- Authors: Hamza Adnan, Matthew T. Jackson, Alexey Zakharov,
- Abstract要約: ラテントアクションモデルは、生の観察からのみアクション関連表現を抽出することを学ぶ。
LAMは、アクション関連ノイズからアクション関連特徴を引き離す上で、重要な課題に直面している。
MaskLAMは、視覚エージェントセグメンテーションを組み込むことでこの問題を軽減するため、LAMトレーニングの軽量な修正である。
- 参考スコア(独自算出の注目度): 0.8411385346896413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Action Models (LAMs) learn to extract action-relevant representations solely from raw observations, enabling reinforcement learning from unlabelled videos and significantly scaling available training data. However, LAMs face a critical challenge in disentangling action-relevant features from action-correlated noise (e.g., background motion). Failing to filter these distractors causes LAMs to capture spurious correlations and build sub-optimal latent action spaces. In this paper, we introduce MaskLAM -- a lightweight modification to LAM training to mitigate this issue by incorporating visual agent segmentation. MaskLAM utilises segmentation masks from pretrained foundation models to weight the LAM reconstruction loss, thereby prioritising salient information over background elements while requiring no architectural modifications. We demonstrate the effectiveness of our method on continuous-control MuJoCo tasks, modified with action-correlated background noise. Our approach yields up to a 4x increase in accrued rewards compared to standard baselines and a 3x improvement in the latent action quality, as evidenced by linear probe evaluation.
- Abstract(参考訳): ラテントアクションモデル(LAM)は、生の観察からのみアクション関連表現を抽出することを学び、未学習のビデオからの強化学習を可能にし、利用可能なトレーニングデータを著しくスケールする。
しかし、LAMは、アクション関連ノイズ(例えば、背景運動)からアクション関連特徴を遠ざける上で、重要な課題に直面している。
これらの散乱体をフィルタできないと、LAMは急激な相関を捉え、準最適潜在作用空間を構築する。
本稿では,視覚エージェントのセグメンテーションを取り入れることで,この問題を軽減するため,LAMトレーニングの軽量な修正であるMaskLAMを紹介する。
MaskLAMは、事前訓練された基礎モデルのセグメンテーションマスクを使用して、LAM再構成損失の重み付けを行い、アーキテクチャ変更を必要とせず、背景要素に有意な情報を優先する。
動作関連背景雑音を伴って修正した連続制御型 MuJoCo タスクに対する本手法の有効性を示す。
提案手法は, 標準ベースラインに比べて最大で4倍の報酬が得られ, 潜時行動の質が3倍向上することが線形プローブ評価によって証明された。
関連論文リスト
- Vision-Language Models Unlock Task-Centric Latent Actions [75.53481518882275]
本稿では、視覚言語モデル(VLM)の常識推論能力を利用して、迅速な表現を実現することを提案する。
そこで本研究では,VLMに障害を無視するよう求めれば,遅延動作の質が大幅に向上し,解離メタワールドにおける下流の成功率が最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T08:38:59Z) - LVD-GS: Gaussian Splatting SLAM for Dynamic Scenes via Hierarchical Explicit-Implicit Representation Collaboration Rendering [21.615484471658842]
3次元ガウス散乱SLAMは空間知能における高忠実度マッピングの手法として広く用いられている。
既存の手法は、大規模でダイナミックな屋外シーンでの性能を制限する単一の表現方式に依存していることが多い。
我々は,新しいLiDAR-Visual 3D Gaussian Splatting SLAMシステムである textbfLVD-GS を提案する。
論文 参考訳(メタデータ) (2025-10-26T13:16:39Z) - RefAM: Attention Magnets for Zero-Shot Referral Segmentation [103.98022860792504]
本稿では,下流タスクの拡散変換器から特徴,注意点を活用できる新しい手法を提案する。
重要な洞察は、停止語は注意磁石として機能するということだ。
停止語を付加した背景アクティベーションを小さなクラスタに分割するアテンション再分配戦略を提案する。
論文 参考訳(メタデータ) (2025-09-26T17:59:57Z) - What Do Latent Action Models Actually Learn? [33.75212638602698]
ラテントアクションモデル(LAM)は、フレーム間の変化をラテントとして圧縮することにより、ラベルのないビデオからアクション関連の変化を学習することを目的としている。
本稿では,LAM学習の本質を包括する線形モデルを提案するとともに,この問題を解析的に考察する。
論文 参考訳(メタデータ) (2025-05-27T02:45:30Z) - NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation [66.36912000442608]
NoisyRolloutは単純だが効果的なデータ拡張手法である。
きれいで適度に歪んだ画像からトレーニングの軌跡を混ぜる。
オープンソースのRLチューニングモデル間の最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-17T16:10:13Z) - Object-Centric Latent Action Learning [70.3173534658611]
本稿では,画素ではなくオブジェクトを対象とする,オブジェクト中心の潜在動作学習フレームワークを提案する。
我々は、自己教師対象中心の事前学習を利用して、行動関連や注意をそらすダイナミクスを歪めている。
その結果, 物体中心の事前学習は, トラクタの負の効果を50%軽減することがわかった。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - Latent Action Learning Requires Supervision in the Presence of Distractors [40.33684677920241]
実世界のビデオには、潜在的なアクション学習を妨げるアクション関連障害が含まれていることが示されています。
LAOMは,潜伏動作の質を8倍に向上する簡易なLAPO修正法である。
我々は、潜在アクション学習中のデータセット全体の2.5%にも満たない、地道的なアクションによる監視を提供することで、下流のパフォーマンスが平均4.2倍向上することを示した。
論文 参考訳(メタデータ) (2025-02-01T09:35:51Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。