論文の概要: Open-DDVM: A Reproduction and Extension of Diffusion Model for Optical
Flow Estimation
- arxiv url: http://arxiv.org/abs/2312.01746v1
- Date: Mon, 4 Dec 2023 09:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:39:25.949371
- Title: Open-DDVM: A Reproduction and Extension of Diffusion Model for Optical
Flow Estimation
- Title(参考訳): Open-DDVM:光フロー推定のための拡散モデルの再現と拡張
- Authors: Qiaole Dong and Bo Zhao and Yanwei Fu
- Abstract要約: GoogleはDDVMを提案し、画像から画像への変換タスクの一般的な拡散モデルが驚くほどうまく機能することを初めて証明した。
しかし、DDVMはまだクローズドソースモデルであり、高価でプライベートなPaletteスタイルの事前トレーニングがある。
本稿では,DDVMを再現した最初のオープンソースDDVMについて述べる。
- 参考スコア(独自算出の注目度): 56.51837025874472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Google proposes DDVM which for the first time demonstrates that a
general diffusion model for image-to-image translation task works impressively
well on optical flow estimation task without any specific designs like RAFT.
However, DDVM is still a closed-source model with the expensive and private
Palette-style pretraining. In this technical report, we present the first
open-source DDVM by reproducing it. We study several design choices and find
those important ones. By training on 40k public data with 4 GPUs, our
reproduction achieves comparable performance to the closed-source DDVM. The
code and model have been released in
https://github.com/DQiaole/FlowDiffusion_pytorch.
- Abstract(参考訳): 最近Googleは、画像から画像への変換タスクの一般的な拡散モデルがRAFTのような特定の設計を使わずに、光学フロー推定タスクで驚くほどうまく動作することを示すDDVMを提案する。
しかし、DDVMはまだクローズドソースモデルであり、高価でプライベートなPaletteスタイルの事前トレーニングがある。
本稿では,DDVMを再現した最初のオープンソースDDVMについて述べる。
いくつかの設計選択を研究し、重要なものを見つけます。
4つのGPUで40万の公開データをトレーニングすることで、我々の再生はクローズドソースDDVMに匹敵するパフォーマンスを達成する。
コードとモデルはhttps://github.com/dqiaole/flowdiffusion_pytorchでリリースされている。
関連論文リスト
- Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models [146.18107944503436]
Molmoは、オープンネスのクラスで最先端のVLMの新たなファミリーである。
私たちの重要なイノベーションは、人間のアノテーションから収集された、新しくて詳細な画像キャプションデータセットです。
近い将来、モデルウェイト、キャプション、微調整データ、ソースコードをすべてリリースする予定です。
論文 参考訳(メタデータ) (2024-09-25T17:59:51Z) - KerasCV and KerasNLP: Vision and Language Power-Ups [9.395199188271254]
KerasCVとKerasNLPはコンピュータビジョンと自然言語処理のためのKeras APIの拡張である。
これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。
ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
論文 参考訳(メタデータ) (2024-05-30T16:58:34Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model [36.57703763466984]
そこで我々は拡散モデルDiffUIRに基づく高度な時間ガラスマッピング戦略を提案する。
5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-17T09:41:20Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - I$^2$SB: Image-to-Image Schr\"odinger Bridge [87.43524087956457]
Image-to-Image Schr"odinger Bridge (I$2$SB) は条件拡散モデルの新しいクラスである。
I$2$SB は、2つの与えられた分布間の非線形拡散過程を直接学習する。
I$2$SBは、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。
論文 参考訳(メタデータ) (2023-02-12T08:35:39Z) - One to Transfer All: A Universal Transfer Framework for Vision
Foundation Model with Few Data [56.14205030170083]
我々は,任意のVFM(Vision Foundation Model)をダウンストリームデータが少ないダウンストリームタスクに転送するためのOTA(Transfer All)を提案する。
OTAは、転送時に上流データ、VFM、下流タスクに依存しない。
大規模な実験により,本手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-11-24T10:10:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。