Fugu-MT 論文翻訳(概要): Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

論文の概要: Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion

arxiv url: http://arxiv.org/abs/2411.04919v1
Date: Thu, 07 Nov 2024 17:56:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.464051
Title: Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion
Title（参考訳）: Stem-OB:拡散インバージョンによるStem-like Convergent Observationによる一般化可能な視覚模倣学習
Authors: Kaizhe Hu, Zihang Rui, Yao He, Yuyao Liu, Pu Hua, Huazhe Xu,
Abstract要約: 我々は,事前学習した画像拡散モデルを用いて低レベルの視覚的差を抑えるStem-OBを提案する。この画像逆転過程は、観測結果を共有表現に変換するのと似ている。提案手法は, シンプルかつ高効率なプラグアンドプレイソリューションである。
参考スコア（独自算出の注目度）: 18.990678061962825
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual imitation learning methods demonstrate strong performance, yet they lack generalization when faced with visual input perturbations, including variations in lighting and textures, impeding their real-world application. We propose Stem-OB that utilizes pretrained image diffusion models to suppress low-level visual differences while maintaining high-level scene structures. This image inversion process is akin to transforming the observation into a shared representation, from which other observations stem, with extraneous details removed. Stem-OB contrasts with data-augmentation approaches as it is robust to various unspecified appearance changes without the need for additional training. Our method is a simple yet highly effective plug-and-play solution. Empirical results confirm the effectiveness of our approach in simulated tasks and show an exceptionally significant improvement in real-world applications, with an average increase of 22.2% in success rates compared to the best baseline. See https://hukz18.github.io/Stem-Ob/ for more info.
Abstract（参考訳）: 視覚模倣学習法は、強い性能を示すが、照明やテクスチャのバリエーションを含む視覚入力の摂動に直面すると、現実の応用を妨げる一般化が欠如している。我々は,事前訓練された画像拡散モデルを用いて,高レベルのシーン構造を維持しつつ,低レベルの視覚的差を抑えるStem-OBを提案する。この画像逆転過程は、観測結果を共有表現に変換するのと似ている。 Stem-OBは、データ拡張アプローチとは対照的に、追加のトレーニングを必要とせずに、さまざまな特定されていない外観変化に対して堅牢である。提案手法は, シンプルかつ高効率なプラグアンドプレイソリューションである。実験の結果,シミュレーション作業におけるアプローチの有効性が確認され,実世界のアプリケーションでは,最高のベースラインに比べて平均22.2%の成功率で極めて顕著な改善が見られた。詳細はhttps://hukz18.github.io/Stem-Ob/を参照。

関連論文リスト

Guiding Diffusion-based Reconstruction with Contrastive Signals for Balanced Visual Representation [81.40978077888693]
対照的に、CLIP(Contrastive Language- Image Pre-training)は、下流のパフォーマンスにおいて重要なボトルネックとなっている。近年のソリューションでは、拡散モデルを用いて、CLIP視覚トークンに画像再構成を条件付けることで表現を強化する。我々は、より包括的な視覚表現を追求するために、コントラスト信号を拡散に基づく再構成に統合する。
論文参考訳（メタデータ） (2026-03-05T04:45:49Z)
Context-Enriched Contrastive Loss: Enhancing Presentation of Inherent Sample Connections in Contrastive Learning Framework [5.906578607951289]
対照的な学習において、対照的な損失関数は、回転や収穫といった技術を通してサンプル間の類似性を識別する上で重要な役割を担っている。本稿では,2つの収束目標を包含することで,学習効率を同時に向上し,情報歪みに対処するコンテキスト強化コントラスト損失関数を提案する。
論文参考訳（メタデータ） (2025-12-01T19:26:19Z)
Revisiting Visual Understanding in Multimodal Reasoning through a Lens of Image Perturbation [38.740533834549716]
言語のみのモデルでは、生の視覚入力を消費するMLLMと同等またはそれ以上の性能が得られることを示す。そこで我々は,アルゴリズムの修正を必要とせず,知覚の堅牢性を高めるシンプルな視覚摂動フレームワークを提案する。本研究は,マルチモーダル数学的推論における視覚摂動の重要性を明らかにするものである。
論文参考訳（メタデータ） (2025-06-11T13:39:46Z)
One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文参考訳（メタデータ） (2025-03-09T09:39:57Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Don't Judge by the Look: Towards Motion Coherent Video Representation [56.09346222721583]
Motion Coherent Augmentation (MCA)は、ビデオ理解のためのデータ拡張手法である。 MCAはビデオの外観変化を導入し、静的な外観ではなく、モデルに動きのパターンを優先するよう暗黙的に促す。
論文参考訳（メタデータ） (2024-03-14T15:53:04Z)
Visual Imitation Learning with Calibrated Contrastive Representation [44.63125396964309]
AIL(Adversarial Imitation Learning)は、エージェントが低次元の状態と行動で専門家の行動を再現することを可能にする。本稿では、視覚的AILフレームワークにコントラスト型代表学習を組み込むことにより、シンプルで効果的な解を提案する。
論文参考訳（メタデータ） (2024-01-21T04:18:30Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Exploring Data Augmentations on Self-/Semi-/Fully- Supervised Pre-trained Models [24.376036129920948]
本研究では,データ拡張が視力事前訓練モデルの性能に与える影響について検討する。ランダム消去(Random Erasing)、CutOut(CutOut)、CutMix(CutMix)、MixUp(MixUp)という4種類のデータ拡張を適用します。画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなどの視覚タスクにおける性能について報告する。
論文参考訳（メタデータ） (2023-10-28T23:46:31Z)
ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文参考訳（メタデータ） (2023-07-15T04:48:35Z)
Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文参考訳（メタデータ） (2022-04-02T16:58:36Z)
Improving Transferability of Representations via Augmentation-Aware Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。 AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文参考訳（メタデータ） (2021-11-18T10:43:50Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
Demystifying Contrastive Self-Supervised Learning: Invariances, Augmentations and Dataset Biases [34.02639091680309]
近年のパフォーマンス向上は、インスタンス分類モデルをトレーニングし、各イメージを扱い、拡張バージョンを単一のクラスのサンプルとして扱うことで実現している。我々は,MOCO や PIRL のようなアプローチがオクルージョン不変表現を学習することを示した。第2に、Imagenetのようなクリーンなオブジェクト中心のトレーニングデータセットにアクセスすることで、これらのアプローチがさらに利益を得ることを示す。
論文参考訳（メタデータ） (2020-07-28T00:11:31Z)
Un-Mix: Rethinking Image Mixtures for Unsupervised Visual Representation Learning [108.999497144296]
近年の先進的な教師なし学習手法では,同じ画像から2つの「ビュー」を学習表現として比較するために,サイムズ様の枠組みを用いている。この研究は、教師なし学習においてラベル空間上の距離の概念を巻き込み、正対と負対のソフトな類似度をモデルに認識させることを目的としている。その概念的単純さにもかかわらず、この解 -- 教師なし画像混合(Un-Mix)により、変換された入力と対応する新しいラベル空間からより微妙でより堅牢で一般化された表現を学習できることを実証的に示す。
論文参考訳（メタデータ） (2020-03-11T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。