論文の概要: ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.12208v1
- Date: Thu, 12 Mar 2026 17:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.257428
- Title: ForensicZip: More Tokens are Better but Not Necessary in Forensic Vision-Language Models
- Title(参考訳): ForensicZip: より多くのトークンはより優れているが、法医学的ビジョンランゲージモデルでは必要ではない
- Authors: Yingxin Lai, Zitong Yu, Jun Wang, Linlin Shen, Yong Xu, Xiaochun Cao,
- Abstract要約: フォージェリ駆動の観点からトークン圧縮を再構築するトレーニングフリーフレームワークであるForensicZipを紹介した。
ForensicZipは、最先端検出性能を維持しながら、スピードアップとFLOPの90%以上を達成している。
- 参考スコア(独自算出の注目度): 108.5042835056188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) enable interpretable multimedia forensics by generating textual rationales for forgery detection. However, processing dense visual sequences incurs high computational costs, particularly for high-resolution images and videos. Visual token pruning is a practical acceleration strategy, yet existing methods are largely semantic-driven, retaining salient objects while discarding background regions where manipulation traces such as high-frequency anomalies and temporal jitters often reside. To address this issue, we introduce ForensicZip, a training-free framework that reformulates token compression from a forgery-driven perspective. ForensicZip models temporal token evolution as a Birth-Death Optimal Transport problem with a slack dummy node, quantifying physical discontinuities indicating transient generative artifacts. The forensic scoring further integrates transport-based novelty with high-frequency priors to separate forensic evidence from semantic content under large-ratio compression. Experiments on deepfake and AIGC benchmarks show that at 10\% token retention, ForensicZip achieves $2.97\times$ speedup and over 90\% FLOPs reduction while maintaining state-of-the-art detection performance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、フォージェリ検出のためのテキスト論理を生成することによって、解釈可能なマルチメディアの法医学を可能にする。
しかし、高精細な視覚シーケンスを処理すると、特に高精細な画像やビデオの計算コストが高くなる。
ビジュアルトークンのプルーニングは実用的なアクセラレーション戦略であるが、既存の手法は主にセマンティック駆動であり、高い周波数異常や時間ジッタなどの操作トレースがしばしば存在するバックグラウンド領域を破棄しながら、健全なオブジェクトを保持する。
この問題に対処するために、フォージェリ駆動の観点からトークン圧縮を再構成するトレーニング不要のフレームワークであるForensicZipを紹介した。
ForensicZipは、時間的トークンの進化を、スラックダミーノードによる生死最適輸送問題としてモデル化し、過渡的な生成アーティファクトを示す物理的不連続性を定量化する。
法医学的スコアリングは、さらにトランスポートベースのノベルティを高周波プリエントと統合し、大比圧縮下の意味内容から法学的な証拠を分離する。
ディープフェイクとAIGCベンチマークの実験では、トークン保持率10\%で、ForensicZipは2.97\times$スピードアップと90%以上のFLOPの削減を実現し、最先端検出性能を維持している。
関連論文リスト
- Word-Anchored Temporal Forgery Localization [6.691985085293349]
候補偽造提案を導出するために,単語アンコール時間的偽造位置推定(WAFL)を提案する。
まず、時間的偽造の本質を分析し、最小の有意義な偽造単位、単語トークンを識別し、データ前処理を音声の自然な言語境界と整合させる。
偽造検出に固有の極端なクラス不均衡を克服するために,アーティファクト中心非対称損失(ACA)を設計する。
論文 参考訳(メタデータ) (2026-03-06T12:33:28Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。
本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。
クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。
これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文 参考訳(メタデータ) (2026-02-12T18:15:08Z) - HIPPO: Accelerating Video Large Language Models Inference via Holistic-aware Parallel Speculative Decoding [48.55833840968632]
投機的復号化は、出力品質を犠牲にすることなくLSM推論を加速するための有望なアプローチとして登場した。
提案するHIPPOは,汎用的な並列投機復号化フレームワークである。
6つのベンチマークで4つのビデオLLMの実験では、HIPPOの有効性が示され、最大3.51倍のスピードアップが達成された。
論文 参考訳(メタデータ) (2026-01-13T07:02:43Z) - Towards Robust DeepFake Detection under Unstable Face Sequences: Adaptive Sparse Graph Embedding with Order-Free Representation and Explicit Laplacian Spectral Prior [12.202765237400143]
本稿では,Laplacian-Regularized Graph Convolutional Network (LR-GCN)を提案する。
LR-GCNは、高度のグローバル・ローカル・ディスラプションの下で、最先端の性能とロバスト性を大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T12:31:07Z) - SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。
我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。
SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文 参考訳(メタデータ) (2025-08-10T13:48:07Z) - Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。