論文の概要: Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos
- arxiv url: http://arxiv.org/abs/2505.18899v1
- Date: Sat, 24 May 2025 23:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.734859
- Title: Beyond Domain Randomization: Event-Inspired Perception for Visually Robust Adversarial Imitation from Videos
- Title(参考訳): ドメインのランダム化を超えて: ビデオからの視覚的にロバストな敵対的模倣に対するイベントインスパイアされた知覚
- Authors: Andrea Ramazzina, Vittorio Giammarino, Matteo El-Hariry, Mario Bijelic,
- Abstract要約: 専門家によるデモンストレーションや学習者の環境がドメインシフトを示すと、ビデオからの模倣は失敗することが多い。
我々は、外見をランダムにするのではなく、感覚表現自体を再考することによって、その影響を完全に排除するアプローチを提案する。
本手法は,標準RGB動画を時間強度勾配を符号化したスパースなイベントベース表現に変換する。
- 参考スコア(独自算出の注目度): 4.338232204525725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation from videos often fails when expert demonstrations and learner environments exhibit domain shifts, such as discrepancies in lighting, color, or texture. While visual randomization partially addresses this problem by augmenting training data, it remains computationally intensive and inherently reactive, struggling with unseen scenarios. We propose a different approach: instead of randomizing appearances, we eliminate their influence entirely by rethinking the sensory representation itself. Inspired by biological vision systems that prioritize temporal transients (e.g., retinal ganglion cells) and by recent sensor advancements, we introduce event-inspired perception for visually robust imitation. Our method converts standard RGB videos into a sparse, event-based representation that encodes temporal intensity gradients, discarding static appearance features. This biologically grounded approach disentangles motion dynamics from visual style, enabling robust visual imitation from observations even in the presence of visual mismatches between expert and agent environments. By training policies on event streams, we achieve invariance to appearance-based distractors without requiring computationally expensive and environment-specific data augmentation techniques. Experiments across the DeepMind Control Suite and the Adroit platform for dynamic dexterous manipulation show the efficacy of our method. Our code is publicly available at Eb-LAIfO.
- Abstract(参考訳): 専門家によるデモンストレーションや学習者の環境が、照明、色、テクスチャの相違など、ドメインシフトを示すと、ビデオからの模倣は失敗することが多い。
視覚的ランダム化はトレーニングデータを増やすことでこの問題に部分的に対処するが、計算集約的で本質的には反応性があり、目に見えないシナリオに苦しむ。
我々は、外見をランダムにするのではなく、感覚表現自体を再考することによって、その影響を完全に排除するアプローチを提案する。
近年, 時間的過渡性(網膜神経節細胞など)を優先する生物学的視覚システムや, 近年のセンサの進歩により, 視覚的に堅牢な模倣に対する事象に触発された知覚が導入された。
提案手法は,標準RGB動画を時間的強度勾配を符号化し,静的な外観特徴を排除したスパースなイベントベース表現に変換する。
この生物学的基盤のアプローチは、視覚的スタイルから運動力学を分離し、専門家とエージェント環境の間の視覚的ミスマッチが存在する場合でも、観察から堅牢な視覚的模倣を可能にする。
イベントストリーム上のポリシーをトレーニングすることにより、計算コストと環境固有のデータ拡張技術を必要とすることなく、外見に基づくイントラクタへの不変性を実現できる。
DeepMind Control SuiteとAdroitプラットフォームを用いた動的デキスタラス操作実験により,本手法の有効性が示された。
私たちのコードはEb-LAIfOで公開されています。
関連論文リスト
- Zero-Shot Visual Generalization in Robot Manipulation [0.13280779791485384]
現在のアプローチは、しばしば点雲や深さのような不変表現に頼ることで問題を横取りする。
ディアングル型表現学習は、視覚的分布シフトに対して、視覚に基づく強化学習ポリシーを堅牢化できることを最近示した。
シミュレーションおよび実ハードウェア上での視覚摂動に対するゼロショット適応性を示す。
論文 参考訳(メタデータ) (2025-05-16T22:01:46Z) - Don't Judge by the Look: Towards Motion Coherent Video Representation [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ理解のためのデータ拡張手法である。
MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文 参考訳(メタデータ) (2024-03-14T15:53:04Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - FakeTransformer: Exposing Face Forgery From Spatial-Temporal
Representation Modeled By Facial Pixel Variations [8.194624568473126]
顔の偽造はあらゆるターゲットを攻撃できるため、個人のプライバシーと財産のセキュリティに新たな脅威をもたらす。
生理的信号の空間的コヒーレンスと時間的一貫性が生成された内容で破壊されるという事実に着想を得て,実ビデオと合成ビデオとを区別できる一貫性のないパターンを見つけ出そうとする。
論文 参考訳(メタデータ) (2021-11-15T08:44:52Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Unsupervised Feature Learning for Manipulation with Contrastive Domain
Randomization [19.474628552656764]
教師なし学習に対するドメインランダム化のナイーブな応用は不変性を促進しないことを示す。
本研究では,視覚特性のシミュレーションによるランダム化を制御できることを生かして,コントラスト損失の簡単な修正を提案する。
論文 参考訳(メタデータ) (2021-03-20T09:54:45Z) - Non-Rigid Neural Radiance Fields: Reconstruction and Novel View
Synthesis of a Dynamic Scene From Monocular Video [76.19076002661157]
Non-Rigid Neural Radiance Fields (NR-NeRF) は、一般的な非剛体動的シーンに対する再構成および新しいビュー合成手法である。
一つのコンシューマ級カメラでさえ、新しい仮想カメラビューからダイナミックシーンの洗練されたレンダリングを合成するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-12-22T18:46:12Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。