論文の概要: ATATA: One Algorithm to Align Them All
- arxiv url: http://arxiv.org/abs/2601.11194v1
- Date: Fri, 16 Jan 2026 11:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.466388
- Title: ATATA: One Algorithm to Align Them All
- Title(参考訳): ATATA: すべてを調整するためのアルゴリズム
- Authors: Boyi Pang, Savva Ignatyev, Vladimir Ippolitov, Ramil Khafizov, Yurii Melnik, Oleg Voynov, Maksim Nakhodnov, Aibek Alanov, Xiaopeng Fan, Peter Wonka, Evgeny Burnaev,
- Abstract要約: そこで本研究では,共振器モデルを用いた構造整合サンプルの接合推定のための新しいマルチモーダルアルゴリズムを提案する。
本稿では,画像,映像,3次元形状生成の領域への適用性について,最先端のベースラインを用いて検証し,編集ベースと共同推論ベースの競合手法との比較を行った。
- 参考スコア(独自算出の注目度): 74.76451498236437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We suggest a new multi-modal algorithm for joint inference of paired structurally aligned samples with Rectified Flow models. While some existing methods propose a codependent generation process, they do not view the problem of joint generation from a structural alignment perspective. Recent work uses Score Distillation Sampling to generate aligned 3D models, but SDS is known to be time-consuming, prone to mode collapse, and often provides cartoonish results. By contrast, our suggested approach relies on the joint transport of a segment in the sample space, yielding faster computation at inference time. Our approach can be built on top of an arbitrary Rectified Flow model operating on the structured latent space. We show the applicability of our method to the domains of image, video, and 3D shape generation using state-of-the-art baselines and evaluate it against both editing-based and joint inference-based competing approaches. We demonstrate a high degree of structural alignment for the sample pairs obtained with our method and a high visual quality of the samples. Our method improves the state-of-the-art for image and video generation pipelines. For 3D generation, it is able to show comparable quality while working orders of magnitude faster.
- Abstract(参考訳): そこで本研究では,共振器モデルを用いた構造整合サンプルの接合推定のための新しいマルチモーダルアルゴリズムを提案する。
既存の手法では、共依存生成プロセスを提案するが、構造的アライメントの観点からは、共同生成の問題には見当たらない。
最近の研究では、スコア蒸留サンプリングを使用して整列した3Dモデルを生成するが、SDSは時間がかかり、モードが崩壊する傾向があり、しばしば漫画的な結果をもたらすことが知られている。
対照的に、提案手法はサンプル空間におけるセグメントの結合輸送に依存し、推論時により高速な計算をもたらす。
我々のアプローチは、構造化された潜在空間で動作する任意のRectified Flowモデルの上に構築することができる。
本稿では,画像,映像,3次元形状生成の領域への適用性について,最先端のベースラインを用いて検証し,編集ベースと共同推論ベースの競合手法との比較を行った。
本研究では,本手法を用いて得られた試料対の構造的アライメントと,試料の視覚的品質について述べる。
本手法は,画像およびビデオ生成パイプラインの最先端性を改善する。
3D世代では、作業順序を桁違いに速くしながら、同等のクオリティを示すことができる。
関連論文リスト
- Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation [62.87088388345378]
ワーピング・アンド・インペインティング手法を用いて,新しいビューイメージと幾何学生成の整合性を実現する拡散型フレームワークを提案する。
手法は、既製の幾何学予測器を利用して、参照画像から見る部分的な幾何学を予測する。
生成した画像と幾何の正確なアライメントを確保するために, クロスモーダルアテンション蒸留法を提案する。
論文 参考訳(メタデータ) (2025-06-13T16:19:00Z) - CLR-Wire: Towards Continuous Latent Representations for 3D Curve Wireframe Generation [11.447223770747051]
CLR ContinuousWireは曲線をパラメトリック曲線としてエンコードし、パラメトリック曲線を連続的で固定された潜在空間に変換する。
この統一されたアプローチは幾何学と位相の両方を生成する。
論文 参考訳(メタデータ) (2025-04-27T09:32:42Z) - MVGaussian: High-Fidelity text-to-3D Content Generation with Multi-View Guidance and Surface Densification [13.872254142378772]
本稿では,テキスト・ツー・3Dコンテンツ生成のための統合フレームワークを提案する。
提案手法は3次元モデルの構造を反復的に形成するために多視点誘導を利用する。
また,表面近傍にガウスを配向させる新しい密度化アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-09-10T16:16:34Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - AdaDiff: Adaptive Step Selection for Fast Diffusion Models [82.78899138400435]
我々は、インスタンス固有のステップ利用ポリシーを学ぶために設計された軽量フレームワークであるAdaDiffを紹介します。
AdaDiffはポリシーメソッドを使用して最適化され、慎重に設計された報酬関数を最大化する。
我々は3つの画像生成と2つのビデオ生成ベンチマークの実験を行い、本手法がベースラインと同じような視覚的品質を実現することを示す。
論文 参考訳(メタデータ) (2023-11-24T11:20:38Z) - BuilDiff: 3D Building Shape Generation using Single-Image Conditional
Point Cloud Diffusion Models [15.953480573461519]
画像条件付き点雲拡散モデルを用いた新しい3次元ビルディング形状生成法を提案する。
新たに構築された2つのデータセット上でフレームワークを検証した結果,提案手法が生成品質の面で従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2023-08-31T22:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。