論文の概要: Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations
- arxiv url: http://arxiv.org/abs/2502.02867v2
- Date: Fri, 14 Feb 2025 11:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 18:05:53.788020
- Title: Domain-Invariant Per-Frame Feature Extraction for Cross-Domain Imitation Learning with Visual Observations
- Title(参考訳): 視覚的観察を用いたクロスドメイン模倣学習のためのドメイン不変なフレーム単位の特徴抽出
- Authors: Minung Kim, Kawon Lee, Jungmo Kim, Sungho Choi, Seungyul Han,
- Abstract要約: IL(Imitation Learning)は、エージェントが報酬信号なしで専門家の行動を模倣することを可能にするが、高次元、雑音、不完全な視覚的観察を伴うクロスドメインシナリオの課題に直面している。
ドメイン不変な特徴を個々のフレームから抽出し,それをシーケンスに適応させて,専門家の行動を分離し,再現する新しいIL手法であるDIFF-ILを提案する。
- 参考スコア(独自算出の注目度): 5.971046215117033
- License:
- Abstract: Imitation learning (IL) enables agents to mimic expert behavior without reward signals but faces challenges in cross-domain scenarios with high-dimensional, noisy, and incomplete visual observations. To address this, we propose Domain-Invariant Per-Frame Feature Extraction for Imitation Learning (DIFF-IL), a novel IL method that extracts domain-invariant features from individual frames and adapts them into sequences to isolate and replicate expert behaviors. We also introduce a frame-wise time labeling technique to segment expert behaviors by timesteps and assign rewards aligned with temporal contexts, enhancing task performance. Experiments across diverse visual environments demonstrate the effectiveness of DIFF-IL in addressing complex visual tasks.
- Abstract(参考訳): IL(Imitation Learning)は、エージェントが報酬信号なしで専門家の行動を模倣することを可能にするが、高次元、雑音、不完全な視覚的観察を伴うクロスドメインシナリオの課題に直面している。
そこで本研究では,ドメイン不変な特徴を個々のフレームから抽出し,それを配列に適応させて専門家の行動を分離・複製する新しいIL手法であるDIFF-ILを提案する。
また、時間経過によって専門家の行動を区分し、時間的文脈に合わせた報酬を割り当て、タスクパフォーマンスを向上させるためのフレームワイドなタイムラベリング手法も導入する。
多様な視覚環境における実験は、複雑な視覚課題に対処する上でのDIFF-ILの有効性を示す。
関連論文リスト
- Learning Spectral-Decomposed Tokens for Domain Generalized Semantic Segmentation [38.0401463751139]
本稿では、フロンティアを前進させるための新しいスペクトルdEcomposed Token(SET)学習フレームワークを提案する。
特に、凍結されたVFM特徴は、まず周波数空間の位相成分と振幅成分に分解される。
提案手法は, 提案手法を用いて, 推論中におけるスタイル影響表現と静的トークンのギャップを埋める手法である。
論文 参考訳(メタデータ) (2024-07-26T07:50:48Z) - Selective Domain-Invariant Feature for Generalizable Deepfake Detection [21.671221284842847]
本稿では,コンテンツの特徴やスタイルを融合させることにより,顔の偽造に対する感受性を低下させる新しいフレームワークを提案する。
既存のベンチマークと提案における質的および定量的な結果の両方が、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2024-03-19T13:09:19Z) - Long-Term Invariant Local Features via Implicit Cross-Domain
Correspondences [79.21515035128832]
我々は、様々なドメイン変更の下で、現在の最先端特徴抽出ネットワークの性能を徹底的に分析する。
我々は、新しいデータ中心方式、Implicit Cross-Domain Correspondences (iCDC)を提案する。
iCDCは複数のニューラル・ラジアンス・フィールドで同じ環境を表し、それぞれが個々の視覚領域の下にシーンを適合させる。
論文 参考訳(メタデータ) (2023-11-06T18:53:01Z) - DiffPrompter: Differentiable Implicit Visual Prompts for Semantic-Segmentation in Adverse Conditions [14.52296033767276]
DiffPrompterは、視覚的かつ潜時的な新しいプロンプト機構である。
提案した$nabla$HFC画像処理ブロックは,特に悪天候条件下では優れている。
論文 参考訳(メタデータ) (2023-10-06T11:53:04Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Self-supervised Contrastive Learning for Cross-domain Hyperspectral
Image Representation [26.610588734000316]
本稿では,アノテートが本質的に困難であるハイパースペクトル画像に適した自己教師型学習フレームワークを提案する。
提案するフレームワークアーキテクチャは、クロスドメインCNNを利用して、異なるハイパースペクトル画像から表現を学習する。
実験結果は、スクラッチや他の移動学習法から学習したモデルに対して、提案した自己教師型表現の利点を示す。
論文 参考訳(メタデータ) (2022-02-08T16:16:45Z) - PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation [53.428312630479816]
フィールド・オブ・ビュー(FoV)ギャップは、ソースとターゲットドメイン間の顕著なインスタンスの出現差を誘導する。
本研究では,異なる領域における画像の整合性を改善するために,textbfPosition-Invariant Transform (PIT)を提案する。
論文 参考訳(メタデータ) (2021-08-16T15:16:47Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。