Fugu-MT 論文翻訳(概要): R2-Diff: Denoising by diffusion as a refinement of retrieved motion for image-based motion prediction

論文の概要: R2-Diff: Denoising by diffusion as a refinement of retrieved motion for image-based motion prediction

arxiv url: http://arxiv.org/abs/2306.09483v1
Date: Thu, 15 Jun 2023 20:27:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-19 15:59:01.281434
Title: R2-Diff: Denoising by diffusion as a refinement of retrieved motion for image-based motion prediction
Title（参考訳）: R2-Diff:画像に基づく動き予測のための検索動作の洗練としての拡散によるデノーミング
Authors: Takeru Oba and Norimichi Ukita
Abstract要約: 画像に基づく動き予測において、拡散モデルは、画像コンテキストに基づいてランダムノイズを段階的に denoising することによって、文脈的に適切な動きを予測する。 R2-Diffでは、画像類似性に基づいてデータセットから取得した動きをランダムノイズの代わりに拡散モデルに入力する。 R2-Diffは、ロボット操作における最近の最先端モデルと比較して、適切な動作を正確に予測し、高いタスク成功率を達成する。
参考スコア（独自算出の注目度）: 8.104557130048407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image-based motion prediction is one of the essential techniques for robot manipulation. Among the various prediction models, we focus on diffusion models because they have achieved state-of-the-art performance in various applications. In image-based motion prediction, diffusion models stochastically predict contextually appropriate motion by gradually denoising random Gaussian noise based on the image context. While diffusion models are able to predict various motions by changing the random noise, they sometimes fail to predict a contextually appropriate motion based on the image because the random noise is sampled independently of the image context. To solve this problem, we propose R2-Diff. In R2-Diff, a motion retrieved from a dataset based on image similarity is fed into a diffusion model instead of random noise. Then, the retrieved motion is refined through the denoising process of the diffusion model. Since the retrieved motion is almost appropriate to the context, it becomes easier to predict contextually appropriate motion. However, traditional diffusion models are not optimized to refine the retrieved motion. Therefore, we propose the method of tuning the hyperparameters based on the distance of the nearest neighbor motion among the dataset to optimize the diffusion model for refinement. Furthermore, we propose an image-based retrieval method to retrieve the nearest neighbor motion in inference. Our proposed retrieval efficiently computes the similarity based on the image features along the motion trajectory. We demonstrate that R2-Diff accurately predicts appropriate motions and achieves high task success rates compared to recent state-of-the-art models in robot manipulation.
Abstract（参考訳）: 画像に基づく動き予測はロボット操作に不可欠な技術の一つである。様々な予測モデルの中で,様々なアプリケーションで最先端の性能を達成したため,拡散モデルに着目する。画像に基づく動き予測において、拡散モデルは、画像コンテキストに基づいてランダムなガウス雑音を徐々に denoising することにより、文脈的に適切な動きを確率的に予測する。拡散モデルはランダムノイズを変化させることで様々な動きを予測できるが、画像コンテキストとは独立にランダムノイズをサンプリングするため、画像に基づいて文脈的に適切な動きを予測できない場合もある。この問題を解決するためにR2-Diffを提案する。 R2-Diffでは、画像類似性に基づいてデータセットから取得した動きをランダムノイズの代わりに拡散モデルに入力する。そして、拡散モデルの復調過程を通じて、検索した動きを洗練する。検索された動きは文脈にほぼ適するため、文脈的に適切な動きを予測するのが容易になる。しかし、従来の拡散モデルは、取得した動きを洗練するために最適化されていない。そこで本研究では,データセット間の近接移動距離に基づいてハイパーパラメータをチューニングし,拡散モデルを最適化する手法を提案する。さらに,最も近い近傍動きを推論で検索する画像ベース検索手法を提案する。提案手法は,運動軌跡に沿った画像特徴に基づく類似度を効率的に計算する。我々は,ロボット操作における最近の最先端モデルと比較して,R2-Diffが適切な動作を正確に予測し,高いタスク成功率を達成することを示した。

関連論文リスト

Image Motion Blur Removal in the Temporal Dimension with Video Diffusion Models [3.052019331122618]
本研究では,動きのぼかしを時間的平均化現象として扱う新しい単一像デブロアリング手法を提案する。私たちの中心となるイノベーションは、トレーニング済みの動画拡散トランスフォーマーモデルを利用して、多様な動きのダイナミクスを捉えることです。合成および実世界のデータセットにおける実験結果から,本手法は複雑な動きのぼかしシナリオを損なう場合,既存の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-22T03:01:54Z)
Arbitrary-steps Image Super-resolution via Diffusion Inversion [68.78628844966019]
本研究では,拡散インバージョンに基づく新しい画像超解像(SR)手法を提案する。本研究では,拡散モデルの中間状態を構築するための部分雑音予測戦略を設計する。トレーニングが完了すると、このノイズ予測器を使用して、拡散軌道に沿ってサンプリングプロセスを部分的に初期化し、望ましい高分解能結果を生成する。
論文参考訳（メタデータ） (2024-12-12T07:24:13Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Sequential Posterior Sampling with Diffusion Models [15.028061496012924]
条件付き画像合成における逐次拡散後サンプリングの効率を向上させるため,遷移力学をモデル化する新しい手法を提案する。本研究では,高フレームレート心エコー画像の現実的データセットに対するアプローチの有効性を実証する。提案手法は,画像の拡散モデルとリアルタイム推論を必要とする他の領域における拡散モデルのリアルタイム適用の可能性を開く。
論文参考訳（メタデータ） (2024-09-09T07:55:59Z)
Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文参考訳（メタデータ） (2024-06-18T06:20:42Z)
ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文参考訳（メタデータ） (2024-03-21T17:52:08Z)
RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文参考訳（メタデータ） (2024-01-16T18:57:50Z)
ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文参考訳（メタデータ） (2023-07-15T04:48:35Z)
Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
Real-World Denoising via Diffusion Model [14.722529440511446]
実世界のイメージデノイングは、自然の環境で撮影されたノイズの多い画像からクリーンなイメージを復元することを目的としている。拡散モデルは画像生成の分野で非常に有望な結果を得た。本稿では,実世界の画像のデノナイズに使用可能な,新しい一般デノナイズ拡散モデルを提案する。
論文参考訳（メタデータ） (2023-05-08T04:48:03Z)
Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文参考訳（メタデータ） (2022-11-24T07:30:27Z)
Human Joint Kinematics Diffusion-Refinement for Stochastic Motion Prediction [22.354538952573158]
MotionDiffは、人間の関節のキネマティクスを加熱粒子として扱う拡散確率モデルである。 MotionDiffは、多種多様な可塑性運動を生成する空間時間変換器ベースの拡散ネットワークと、出力をさらに洗練するためのグラフ畳み込みネットワークの2つの部分で構成されている。
論文参考訳（メタデータ） (2022-10-12T07:38:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。