論文の概要: Generative Image as Action Models
- arxiv url: http://arxiv.org/abs/2407.07875v2
- Date: Tue, 8 Oct 2024 17:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 22:29:09.020072
- Title: Generative Image as Action Models
- Title(参考訳): 行動モデルとしての生成画像
- Authors: Mohit Shridhar, Yat Long Lo, Stephen James,
- Abstract要約: RGB画像のターゲットとして安定拡散を微調整する行動閉鎖剤GENIMAを提案する。
画像空間にアクションを持ち上げることで、インターネットで事前訓練された拡散モデルは、最先端のビジュモータアプローチよりも優れたポリシーを生成することができる。
- 参考スコア(独自算出の注目度): 11.826304503932734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-generation diffusion models have been fine-tuned to unlock new capabilities such as image-editing and novel view synthesis. Can we similarly unlock image-generation models for visuomotor control? We present GENIMA, a behavior-cloning agent that fine-tunes Stable Diffusion to 'draw joint-actions' as targets on RGB images. These images are fed into a controller that maps the visual targets into a sequence of joint-positions. We study GENIMA on 25 RLBench and 9 real-world manipulation tasks. We find that, by lifting actions into image-space, internet pre-trained diffusion models can generate policies that outperform state-of-the-art visuomotor approaches, especially in robustness to scene perturbations and generalizing to novel objects. Our method is also competitive with 3D agents, despite lacking priors such as depth, keypoints, or motion-planners.
- Abstract(参考訳): 画像生成拡散モデルは、画像編集や新しいビュー合成などの新機能を解放するために微調整されている。
ビジュモータ制御のための画像生成モデルも同じようにアンロックできますか?
RGB画像のターゲットとして安定拡散を微調整する行動閉鎖剤GENIMAを提案する。
これらの画像は、視覚的目標をジョイントポジションのシーケンスにマッピングするコントローラに送られます。
RLBench 25 と実世界の操作タスク9 について GENIMA について検討した。
画像空間にアクションを持ち上げることで、インターネット事前学習拡散モデルは、特にシーンの摂動に対する堅牢性や新しいオブジェクトへの一般化において、最先端のビズモータアプローチより優れたポリシーを生成することができる。
提案手法は, 奥行き, キーポイント, 動きプランナーなどの先行性に欠けるにもかかわらず, 3次元エージェントと競合する。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Realistic and Efficient Face Swapping: A Unified Approach with Diffusion Models [69.50286698375386]
フェース・スワッピングのための拡散モデルを改善する新しい手法を提案する。
インペイントトレーニング中にマスクシャッフル技術を導入し、スワップのためのいわゆるユニバーサルモデルを作成することができる。
私たちのアプローチは比較的統一されたアプローチなので、他のオフザシェルフモデルのエラーに対して耐性があります。
論文 参考訳(メタデータ) (2024-09-11T13:43:53Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。
このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。
提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文 参考訳(メタデータ) (2023-12-06T02:55:35Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - Affordance Diffusion: Synthesizing Hand-Object Interactions [81.98499943996394]
対象物のRGB画像が与えられた場合、我々はそれと相互作用する人間の手の可視像を幻覚することを目的としている。
そこで本研究では,触覚に依存しない手オブジェクトのインタラクションレイアウトをサンプリングするLayoutNetと,物体をつかむ手のイメージを合成するContentNetの2段階生成手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T17:59:10Z) - Imitating Human Behaviour with Diffusion Models [25.55215280101109]
拡散モデルはテキスト・ツー・イメージ領域において強力な生成モデルとして出現している。
本稿では, 連続した環境下での人間の行動を模倣する観察行動モデルとしての利用について検討する。
論文 参考訳(メタデータ) (2023-01-25T16:31:05Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。