論文の概要: ObjectAlign: Neuro-Symbolic Object Consistency Verification and Correction
- arxiv url: http://arxiv.org/abs/2511.18701v1
- Date: Mon, 24 Nov 2025 02:50:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.982188
- Title: ObjectAlign: Neuro-Symbolic Object Consistency Verification and Correction
- Title(参考訳): ObjectAlign:Neuro-Symbolic Object Consistency Verification and Correction
- Authors: Mustafa Munir, Harsh Goel, Xiwen Wei, Minkyu Choi, Sahil Shah, Kartikeya Bhardwaj, Paul Whatmough, Sandeep Chinchali, Radu Marculescu,
- Abstract要約: 我々は,知覚的メトリクスと記号的推論をブレンドして,編集されたビデオシーケンスの不整合を検出し,検証し,修正するフレームワークであるObjectAlignを紹介する。
私たちは、DAVISとPexelsのビデオデータセットのSOTAベースラインと比較して、CLIPスコアの1.4ポイント改善、ワープエラーの6.1ポイント改善を示す。
- 参考スコア(独自算出の注目度): 25.651102245332766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video editing and synthesis often introduce object inconsistencies, such as frame flicker and identity drift that degrade perceptual quality. To address these issues, we introduce ObjectAlign, a novel framework that seamlessly blends perceptual metrics with symbolic reasoning to detect, verify, and correct object-level and temporal inconsistencies in edited video sequences. The novel contributions of ObjectAlign are as follows: First, we propose learnable thresholds for metrics characterizing object consistency (i.e. CLIP-based semantic similarity, LPIPS perceptual distance, histogram correlation, and SAM-derived object-mask IoU). Second, we introduce a neuro-symbolic verifier that combines two components: (a) a formal, SMT-based check that operates on masked object embeddings to provably guarantee that object identity does not drift, and (b) a temporal fidelity check that uses a probabilistic model checker to verify the video's formal representation against a temporal logic specification. A frame transition is subsequently deemed "consistent" based on a single logical assertion that requires satisfying both the learned metric thresholds and this unified neuro-symbolic constraint, ensuring both low-level stability and high-level temporal correctness. Finally, for each contiguous block of flagged frames, we propose a neural network based interpolation for adaptive frame repair, dynamically choosing the interpolation depth based on the number of frames to be corrected. This enables reconstruction of the corrupted frames from the last valid and next valid keyframes. Our results show up to 1.4 point improvement in CLIP Score and up to 6.1 point improvement in warp error compared to SOTA baselines on the DAVIS and Pexels video datasets.
- Abstract(参考訳): ビデオ編集と合成は、しばしば知覚品質を低下させるフレームフリックやアイデンティティドリフトのようなオブジェクトの不整合を導入する。
これらの問題に対処するために、私たちはObjectAlignという新しいフレームワークを紹介します。これは、編集されたビデオシーケンスにおけるオブジェクトレベルと時間的不整合を検出し、検証し、修正するために、知覚的メトリクスと記号的推論をシームレスにブレンドする新しいフレームワークです。
まず、オブジェクト一貫性を特徴付けるメトリクス(CLIPベースの意味的類似性、LPIPS知覚距離、ヒストグラム相関、SAM由来のオブジェクトマスクIoU)の学習可能なしきい値を提案する。
次に,2つの要素を組み合わせたニューロシンボリック検証手法を提案する。
(a) オブジェクトの同一性がドリフトしないことを確実に保証するために、マスクされたオブジェクトの埋め込みを操作する、正式なSMTベースのチェック。
b)確率論的モデルチェッカーを用いて時間論理仕様に対するビデオの形式的表現を検証する時間的忠実度チェック。
その後、フレーム遷移は、学習されたメトリックしきい値とこの統合されたニューロシンボリック制約の両方を満たすことを必要とし、低レベルの安定性と高レベルの時間的正しさの両方を保証する、単一の論理的主張に基づいて「一貫性」と見なされる。
最後に、フラグ付きフレームの各連続ブロックに対して、適応的なフレーム修復のためのニューラルネットワークベースの補間を提案し、修正するフレーム数に基づいて補間深さを動的に選択する。
これにより、最後の有効なキーフレームと次の有効なキーフレームから、破損したフレームを再構築することができる。
DAVISとPexelsのビデオデータセットのSOTAベースラインと比較すると,CLIPスコアは1.4ポイント,ワープエラーは6.1ポイント改善した。
関連論文リスト
- MomentSeg: Moment-Centric Sampling for Enhanced Video Pixel Understanding [40.37010049965347]
Referring Video Object (RefVOS)は、自然言語記述でガイドされたビデオにターゲットオブジェクトをセグメント化しようとする。
本稿では,時空間接地(TSG)とRefVOSを協調的に最適化し,キーモーメント接地機能を自然に組み込んだ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:18:21Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations [33.74746234704817]
ビデオオブジェクトセグメンテーション(RVOS)は、テキスト記述に基づいて、ビデオ全体を通してターゲットオブジェクトをセグメンテーションすることを目的としている。
これは、深い視覚レベルの理解、ピクセルレベルの高密度な予測、時間的推論を含むため、難しい。
基礎的な視覚基盤モデルから領域レベルの視覚テキストアライメントを継承するbfReferDINO RVOSを提案する。
論文 参考訳(メタデータ) (2025-01-24T16:24:15Z) - Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。
既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。
より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文 参考訳(メタデータ) (2024-12-11T09:53:10Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Making Reconstruction-based Method Great Again for Video Anomaly
Detection [64.19326819088563]
ビデオの異常検出は重要な問題だが、難しい問題だ。
既存の再構成に基づく手法は、昔ながらの畳み込みオートエンコーダに依存している。
連続フレーム再構築のための新しいオートエンコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-28T01:57:57Z) - Self-Supervised Video Object Segmentation via Cutout Prediction and
Tagging [117.73967303377381]
本稿では, 自己教師型ビデオオブジェクト(VOS)アプローチを提案する。
本手法は,対象情報と背景情報の両方を考慮した識別学習損失の定式化に基づく。
提案手法であるCT-VOSは, DAVIS-2017 と Youtube-VOS の2つの挑戦的なベンチマークにおいて,最先端の結果を達成している。
論文 参考訳(メタデータ) (2022-04-22T17:53:27Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - Frame-rate Up-conversion Detection Based on Convolutional Neural Network
for Learning Spatiotemporal Features [7.895528973776606]
本稿では、FRUCによる法医学的特徴をエンドツーエンドに学習するフレームレート変換検出ネットワーク(FCDNet)を提案する。
FCDNetは連続するフレームのスタックを入力として使用し、ネットワークブロックを使ってアーティファクトを効果的に学習して特徴を学習する。
論文 参考訳(メタデータ) (2021-03-25T08:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。