Fugu-MT 論文翻訳(概要): PRIMEdit: Probability Redistribution for Instance-aware Multi-object Video Editing with Benchmark Dataset

論文の概要: PRIMEdit: Probability Redistribution for Instance-aware Multi-object Video Editing with Benchmark Dataset

arxiv url: http://arxiv.org/abs/2412.12877v2
Date: Tue, 25 Mar 2025 02:49:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 21:56:47.156193
Title: PRIMEdit: Probability Redistribution for Instance-aware Multi-object Video Editing with Benchmark Dataset
Title（参考訳）: PRIMEdit: ベンチマークデータセットによるインスタンス対応マルチオブジェクトビデオ編集のための確率再配布
Authors: Samuel Teodoro, Agus Gunawan, Soo Ye Kim, Jihyong Oh, Munchurl Kim,
Abstract要約: PRIMEditはゼロショットフレームワークで、インスタンス中心のProbability ReistributionとDisentangled Multi-instance Samplingという2つの主要なモジュールを導入している。我々は,多種多様なビデオシナリオを特徴とするビデオ編集のための新しいMIVEデータセットを提案し,編集リークを評価するためにCross-Instance Accuracy (CIA) Scoreを紹介した。 PRIMEditは, 信頼性, 正確性, 漏洩防止の両面において, 最近の最先端手法を著しく上回り, 質的, 定量的, ユーザスタディ評価を行った。
参考スコア（独自算出の注目度）: 27.706882926164724
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent AI-based video editing has enabled users to edit videos through simple text prompts, significantly simplifying the editing process. However, recent zero-shot video editing techniques primarily focus on global or single-object edits, which can lead to unintended changes in other parts of the video. When multiple objects require localized edits, existing methods face challenges, such as unfaithful editing, editing leakage, and lack of suitable evaluation datasets and metrics. To overcome these limitations, we propose $\textbf{P}$robability $\textbf{R}$edistribution for $\textbf{I}$nstance-aware $\textbf{M}$ulti-object Video $\textbf{Edit}$ing ($\textbf{PRIMEdit}$). PRIMEdit is a zero-shot framework that introduces two key modules: (i) Instance-centric Probability Redistribution (IPR) to ensure precise localization and faithful editing and (ii) Disentangled Multi-instance Sampling (DMS) to prevent editing leakage. Additionally, we present our new MIVE Dataset for video editing featuring diverse video scenarios, and introduce the Cross-Instance Accuracy (CIA) Score to evaluate editing leakage in multi-instance video editing tasks. Our extensive qualitative, quantitative, and user study evaluations demonstrate that PRIMEdit significantly outperforms recent state-of-the-art methods in terms of editing faithfulness, accuracy, and leakage prevention, setting a new benchmark for multi-instance video editing.
Abstract（参考訳）: 最近のAIベースのビデオ編集により、ユーザーは簡単なテキストプロンプトでビデオを編集できるようになった。しかし、最近のゼロショットビデオ編集技術は、主にグローバルまたはシングルオブジェクトの編集に焦点を当てており、ビデオの他の部分の意図しない変更につながる可能性がある。複数のオブジェクトがローカライズされた編集を必要とする場合、既存のメソッドは、不誠実な編集、リークの編集、適切な評価データセットやメトリクスの欠如といった課題に直面します。これらの制限を克服するために、$\textbf{P}$robability $\textbf{R}$edistribution for $\textbf{I}$nstance-aware $\textbf{M}$ulti-object Video $\textbf{Edit}$ing $\textbf{PRIMEdit}$ PRIMEditはゼロショットフレームワークで、2つの主要なモジュールを導入している。一正確な位置付け及び忠実な編集を確保するための事例中心確率再分配(IPR) 2DMS(Disentangled Multi-Instance Smpling)により、編集リークを防止する。さらに、多様なビデオシナリオを特徴とするビデオ編集のための新しいMIVEデータセットを提案し、マルチインスタンスビデオ編集タスクにおける編集リークを評価するために、Cross-Instance Accuracy (CIA) Scoreを紹介した。 PRIMEditは, 信頼性, 正確性, 漏洩防止の両面で, 最新の最先端手法よりも優れており, マルチスタンスビデオ編集のための新しいベンチマークが設定されている。

関連論文リスト

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [82.34547399693966]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。残メモリを介して知識を注入する新しいスケーラブルなフレームワークであるMEMOIRを提案する。 MeMOIRは各編集をメモリパラメータの別のサブセットに限定し、編集間の干渉を最小限にする。
論文参考訳（メタデータ） (2025-06-09T16:16:42Z)
Resolving UnderEdit & OverEdit with Iterative & Neighbor-Assisted Model Editing [7.752740499342269]
大規模言語モデル(LLM)は下流のタスクに広くデプロイされているが、リトレーニングや微調整によって知識を最新に保つことは、しばしば計算コストがかかる。モデル編集は、ターゲットとするパラメータのサブセットを更新することで、より効率的な代替手段を提供する。本稿では,UnderEditを緩和するために連続的な編集を行う反復的モデル編集法と,OverEditの削減のために,編集中に近隣の知識を取り入れた近隣モデル編集法との2つの補完手法を提案する。
論文参考訳（メタデータ） (2025-03-14T21:53:12Z)
V2Edit: Versatile Video Diffusion Editor for Videos and 3D Scenes [29.80140472486948]
V$2$Editは、インストラクション誘導ビデオと3Dシーン編集のためのトレーニング不要のフレームワークである。複雑な編集タスクを単純なサブタスクに分解するプログレッシブ戦略を導入する。 V$2$Edit を "render-edit-reconstruct" プロセスで 3D シーン編集に拡張し,高品質な 3D 一貫性のある編集を可能にする。
論文参考訳（メタデータ） (2025-03-13T17:59:55Z)
Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。 RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文参考訳（メタデータ） (2024-12-16T12:32:21Z)
A Reinforcement Learning-Based Automatic Video Editing Method Using Pre-trained Vision-Language Model [10.736207095604414]
まず、シーン固有の特徴を抽出する以前の作品とは異なり、事前学習された視覚言語モデル(VLM)を活用する。また,RLをベースとした編集フレームワークを提案し,編集問題を定式化し,仮想エディタを訓練し,より優れた編集判断を行う。
論文参考訳（メタデータ） (2024-11-07T18:20:28Z)
GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文参考訳（メタデータ） (2024-04-18T23:25:27Z)
Action Reimagined: Text-to-Pose Video Editing for Dynamic Human Actions [49.14827857853878]
ReimaginedActはビデオ理解、推論、編集モジュールを含む。提案手法は, 直接指示文のプロンプトだけでなく, 行動変化を予測するための質問も受けられる。
論文参考訳（メタデータ） (2024-03-11T22:46:46Z)
LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文参考訳（メタデータ） (2024-03-01T10:46:47Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
DUnE: Dataset for Unified Editing [3.7346004746366384]
自然言語文を編集するDUnE-an編集ベンチマークを導入する。検索強化言語モデリングは、特殊な編集技術よりも優れていることを示す。
論文参考訳（メタデータ） (2023-11-27T18:56:14Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。