Fugu-MT 論文翻訳(概要): EasyInv: Toward Fast and Better DDIM Inversion

論文の概要: EasyInv: Toward Fast and Better DDIM Inversion

arxiv url: http://arxiv.org/abs/2408.05159v2
Date: Tue, 13 Aug 2024 08:23:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-14 19:48:49.074446
Title: EasyInv: Toward Fast and Better DDIM Inversion
Title（参考訳）: EasyInv: DDIMの高速かつ優れたインバージョンを目指して
Authors: Ziyue Zhang, Mingbao Lin, Shuicheng Yan, Rongrong Ji,
Abstract要約: 本稿では DDIM インバージョンへの容易かつ斬新なアプローチである EasyInv を紹介する。 EasyInvの中核となるのは、逆ノイズを近似するための洗練された戦略です。我々は、EasyInvが従来のDDIMインバージョン手法と同等かそれ以上の結果を提供することができることを説明している。
参考スコア（独自算出の注目度）: 107.52083973660899
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces EasyInv, an easy yet novel approach that significantly advances the field of DDIM Inversion by addressing the inherent inefficiencies and performance limitations of traditional iterative optimization methods. At the core of our EasyInv is a refined strategy for approximating inversion noise, which is pivotal for enhancing the accuracy and reliability of the inversion process. By prioritizing the initial latent state, which encapsulates rich information about the original images, EasyInv steers clear of the iterative refinement of noise items. Instead, we introduce a methodical aggregation of the latent state from the preceding time step with the current state, effectively increasing the influence of the initial latent state and mitigating the impact of noise. We illustrate that EasyInv is capable of delivering results that are either on par with or exceed those of the conventional DDIM Inversion approach, especially under conditions where the model's precision is limited or computational resources are scarce. Concurrently, our EasyInv offers an approximate threefold enhancement regarding inference efficiency over off-the-shelf iterative optimization techniques.
Abstract（参考訳）: 本稿では,従来の反復最適化手法の非効率性や性能制限に対処することにより,DDIMの逆変換の分野を大幅に発展させる,簡単かつ斬新なアプローチであるEasyInvを紹介する。 EasyInvのコアとなるのは、インバージョン処理の精度と信頼性を高めるために、インバージョンノイズを近似するための洗練された戦略である。元の画像に関する豊富な情報をカプセル化した初期潜伏状態の優先順位付けにより、EasyInvは、ノイズアイテムの反復的洗練をクリアする。その代わり,前段階から現在までの潜伏状態の方法論的集約を導入し,初期潜伏状態の影響を効果的に増大させ,騒音の影響を緩和する。本稿では,従来のDDIMインバージョン手法と同等あるいは同等以上の結果を提供できること,特にモデルの精度が制限されている場合,計算資源が不足している場合について述べる。同時に、我々のEasyInvは、オフザシェルフ反復最適化技術よりも推論効率を3倍に向上させる。

関連論文リスト

DeepInv: A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion [65.5172878666262]
拡散インバージョンは、実行可能な監視信号が欠如しているため、難しい課題である。本稿では,Deep Inversion(DeepInv)と呼ばれる自己教師付き拡散インバージョン手法を提案する。 DeepInvはまた、パラメータ化インバージョンソルバをトレーニングするための反復的かつマルチスケールのトレーニングシステムも備えている。
論文参考訳（メタデータ） (2026-01-04T11:27:26Z)
Coordinate Descent for Network Linearization [16.880121048430752]
ReLUアクティベーションは、ResNetネットワークに基づくPrivate Inferenceの主要なボトルネックである。現在の最先端手法のほとんどは、ネットワーク精度とReLU予算を同時に最適化するスムーズな近似に基づいている。我々は、最適化フレームワークとしてCoordinate Descentを活用することで、離散ドメインで直接動作する別のアプローチを取ります。
論文参考訳（メタデータ） (2025-11-14T14:03:58Z)
VoxelOpt: Voxel-Adaptive Message Passing for Discrete Optimization in Deformable Abdominal CT Registration [15.78340001680369]
離散最適化に基づく変形可能な画像登録フレームワークであるVoxelOptを提案する。学習ベースの長所と反復的手法を組み合わせて、登録精度と実行時のバランスを改善する。腹部CTの登録では、これらの変更により、VoxelOptは、ラベルの監督によって訓練された最先端の学習ベースの手法と一致しながら、効率と正確性の両方において、リード反復性を上回っている。
論文参考訳（メタデータ） (2025-06-24T19:44:04Z)
FreeInv: Free Lunch for Improving DDIM Inversion [11.858488956842212]
DDIMの逆転過程は通常、軌道偏差の問題に悩まされる。本研究では,この問題をより効果的かつ効率的に解決するための,ほぼフリーランチ手法(FreeInv)を提案する。 FreeInv は従来の DDIM の逆転よりも優れており,従来の最先端の逆転法と競合することを示す。
論文参考訳（メタデータ） (2025-03-29T10:47:43Z)
E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。 Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文参考訳（メタデータ） (2024-12-30T16:06:31Z)
An Energy-Based Self-Adaptive Learning Rate for Stochastic Gradient Descent: Enhancing Unconstrained Optimization with VAV method [9.298950359150092]
本稿では,制約のない最適化問題に対して,エネルギーに基づく自己調整可能な学習率最適化手法を提案する。補助変数$rを組み、無条件のエネルギー散逸法に固執しながら、バックトラックなしで効率的なエネルギー近似を容易にする。特に、VAVは学習速度がより大きく、訓練過程の初期段階においてより高速な収束を実現する。
論文参考訳（メタデータ） (2024-11-10T19:39:40Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization [22.546989373687655]
本稿では,よりインテリジェントで微分可能なプルーナーを用いて,効率的な拡散モデルを導出する新しいプルーニング法を提案する。提案手法はSD-1.5の4.4倍の高速化を実現し,従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-22T12:18:24Z)
Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文参考訳（メタデータ） (2024-10-10T08:10:53Z)
FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。提案手法はSOTA法よりも10倍高速である。
論文参考訳（メタデータ） (2024-07-28T10:07:55Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文参考訳（メタデータ） (2023-10-18T02:59:57Z)
DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。 LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文参考訳（メタデータ） (2023-10-02T17:52:24Z)
Optimizing a Transformer-based network for a deep learning seismic processing workflow [0.0]
StorSeismicは、様々な地震処理タスクに対応するためにTransformerをベースとした最近導入されたモデルである。微調整作業における事前学習と競争の速さを観察し,バニラモデルと比較してトレーニングすべきパラメータを少なくする。
論文参考訳（メタデータ） (2023-08-09T07:11:42Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-05-12T02:23:25Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Faster Meta Update Strategy for Noise-Robust Deep Learning [62.08964100618873]
我々は,メタグラデーションの最も高価なステップをより高速なレイヤワイズ近似に置き換えるために,新しいファMUS(Faster Meta Update Strategy)を導入する。本手法は,同等あるいはさらに優れた一般化性能を維持しつつ,トレーニング時間の3分の2を節約できることを示す。
論文参考訳（メタデータ） (2021-04-30T16:19:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。