論文の概要: The frame-level leakage trap: rethinking evaluation protocols for intrinsic image decomposition, with source-separable uncertainty as a case study
- arxiv url: http://arxiv.org/abs/2605.06359v1
- Date: Thu, 07 May 2026 14:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.91195
- Title: The frame-level leakage trap: rethinking evaluation protocols for intrinsic image decomposition, with source-separable uncertainty as a case study
- Title(参考訳): フレームレベルの漏洩トラップ:ソース分離不確実性を考慮した固有画像分解のための評価プロトコルの再考
- Authors: Jihwan Woo,
- Abstract要約: 3つのアーキテクチャで、初めてリーク効果を定量化します。
フレームレベルスプリットは、シーンレベルスプリットに対してR_PSNRを1.6〜2.0dB膨張させる。
我々は、S + N で構成された物理インフォームド分解 I = R を、ソース分離可能な三方向不確実性ヘッドで表現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation protocols for learned intrinsic image decomposition on MPI Sintel have been inconsistent. Several prior works split the dataset by frames, which allows spatially similar frames of the same scene to appear in both train and test partitions. We quantify this leakage effect for the first time, across three architectures: a frame-level split inflates test R_PSNR by 1.6 to 2.0 dB (p less than 0.01 for all three, paired t-test across 3 seeds) relative to a scene-level split, confirming an architecture-independent protocol effect. A three-point gradient (random/temporal/scene) shows the gap is continuous, and under extended training the frame-level inflation exceeds 10 dB. We advocate scene-level splits as the community standard and provide reference numbers for six representative models under this protocol. As a case study within the corrected protocol, we present a physics-informed decomposition I = R composed with S + N with a source-separable three-way heteroscedastic uncertainty head. We empirically verify channel specialization: the non-Lambertian uncertainty channel shows r = 0.67 cross-correlation with non-Lambertian residual error, more than 4 times the texture channel's correlation. We further demonstrate downstream utility: filtering out the 75% highest-uncertainty pixels reduces reconstruction MSE by 77% on retained pixels, whereas random filtering produces no improvement. The specialization also holds on out-of-distribution real photographs. We report negative results for a more elaborate variant combining frequency decomposition, cross-task supervision, evidential learning, contrastive loss, and test-time adaptation. Our method reaches 15.98 plus or minus 0.41 dB R_PSNR, within 0.8 dB of a 5-member Deep Ensemble at one-fifth the cost, with the unique capability of source-separated uncertainty.
- Abstract(参考訳): MPIシンテルにおける学習固有の画像分解のための評価プロトコルは不整合である。
以前のいくつかの作業では、データセットをフレームで分割し、同じシーンの空間的に類似したフレームが、列車とテストのパーティションの両方に表示されるようにした。
フレームレベルのスプリットがR_PSNRを1.6から2.0dB(3つのシードに対して0.01未満)に膨らませ、シーンレベルのスプリットと比較し、アーキテクチャに依存しないプロトコル効果を確認する。
3点勾配(ランダム/時間/シーン)はギャップが連続していることを示し、拡張トレーニングではフレームレベルのインフレーションは10dBを超える。
我々は,コミュニティ標準としてシーンレベルの分割を提唱し,このプロトコルの下で6つの代表モデルに対する参照番号を提供する。
修正プロトコル内でのケーススタディとして、S + N で構成された物理インフォームド分解 I = R を、ソース分離可能な三方向不確実性ヘッドを用いて提示する。
非ランベルト的不確実性チャネルは、非ランベルト的残留誤差と r = 0.67 の相互相関を示し、テクスチャチャネルの4倍以上の相関を示す。
75%の高不確かさ画素をフィルタリングすることで、保持画素に対してMSEを77%削減する一方、ランダムなフィルタリングは改善しない。
専門化は、ディストリビューションの実際の写真にも当てはまる。
周波数分解,クロスタスク監視,顕在学習,コントラスト損失,テスト時間適応を併用した,より精巧な変種を報告した。
提案手法は,5員のDeep Ensembleの0.8dB以内の15.98プラスまたは0.41dB R_PSNRに達する。
関連論文リスト
- Two-View Accumulation as the Primary Training Lever for Hybrid-Capture Gaussian Splatting: A Variance-Decomposition View of When Gradient Surgery Helps [7.6889618752994595]
ハイブリッドキャプチャーノベルビュー合成は、かなり異なるカメラビューを組み合わせる。
標準3DGSは、ステップ毎に1つのレンダリングビューで30Kイテレーションでトレーニングされている。
本稿では,この発見を予測・説明する分散分解フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-29T17:45:51Z) - D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - How Learnable Grids Recover Fine Detail in Low Dimensions: A Neural Tangent Kernel Analysis of Multigrid Parametric Encodings [106.3726679697804]
フーリエ特徴符号化(FFE)とマルチグリッドパラメトリック符号化(MPE)の2つの手法を比較した。
MPEは低次元マッピングの標準と見なされるが、MPEはそれらを上回り、高解像度で詳細な表現を学習することが多い。
我々は,MPEが学習可能な埋め込みではなく,グリッド構造を通じてネットワークの性能を向上させることを証明した。
論文 参考訳(メタデータ) (2025-04-18T02:18:08Z) - CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification [65.46685389276443]
画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
論文 参考訳(メタデータ) (2025-02-25T13:09:34Z) - Latent Schrodinger Bridge: Prompting Latent Diffusion for Fast Unpaired Image-to-Image Translation [58.19676004192321]
ノイズからの画像生成とデータからの逆変換の両方を可能にする拡散モデル (DM) は、強力な未ペア画像対イメージ(I2I)翻訳アルゴリズムにインスピレーションを与えている。
我々は、最小輸送コストの分布間の微分方程式(SDE)であるSchrodinger Bridges (SBs) を用いてこの問題に取り組む。
この観測に触発されて,SB ODE を予め訓練した安定拡散により近似する潜在シュロディンガー橋 (LSB) を提案する。
提案アルゴリズムは,従来のDMのコストをわずかに抑えながら,教師なし環境での競合的I2I翻訳を実現していることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:24:14Z) - Cross-domain Self-supervised Framework for Photoacoustic Computed
Tomography Image Reconstruction [4.769412124596113]
純粋なトランスモデルを用いたクロスドメイン非教師付き再構築(CDUR)戦略を提案する。
モデルに基づく自己監督型再構成を実装し、自己監督を利用して計測と画像の整合性を強制する。
マウスのin-vivo PACTデータセットの実験結果は、我々の教師なしフレームワークの可能性を示している。
論文 参考訳(メタデータ) (2023-01-17T03:47:01Z) - Convex Hull Prediction for Adaptive Video Streaming by Recurrent Learning [38.574550778712236]
本稿では,コンテンツ認識凸船体予測の深層学習に基づく手法を提案する。
再帰的畳み込みネットワーク(RCN)を用いて,映像の複雑さを暗黙的に解析し,その凸殻を予測する。
提案するモデルでは, 最適凸殻の近似精度が向上し, 既存の手法と比較して, 競争時間の節約が期待できる。
論文 参考訳(メタデータ) (2022-06-10T05:11:02Z) - Uncertainty-Aware Camera Pose Estimation from Points and Lines [101.03675842534415]
Perspective-n-Point-and-Line (Pn$PL) は、2D-3D特徴座標の3Dモデルに関して、高速で正確で堅牢なカメラローカライゼーションを目指している。
論文 参考訳(メタデータ) (2021-07-08T15:19:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。