論文の概要: Appreciate the View: A Task-Aware Evaluation Framework for Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2511.12675v1
- Date: Sun, 16 Nov 2025 16:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.439187
- Title: Appreciate the View: A Task-Aware Evaluation Framework for Novel View Synthesis
- Title(参考訳): ビューの適合性:新しいビュー合成のためのタスク認識評価フレームワーク
- Authors: Saar Stern, Ido Sobol, Or Litany,
- Abstract要約: 新規ビュー合成(NVS)は、未知の視点から与えられたコンテンツのリアルな画像を生成することを目的としている。
既存の評価指標は、生成したイメージが現実的であり、ソースビューに忠実であるかどうかを評価するのに苦労する。
本稿では、参照ベースのスコア、D_textPRISM$、参照なしスコア、$textMMD_textPRISM$の2つの相補的評価指標を紹介する。
- 参考スコア(独自算出の注目度): 15.922599086027098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of Novel View Synthesis (NVS) is to generate realistic images of a given content from unseen viewpoints. But how can we trust that a generated image truly reflects the intended transformation? Evaluating its reliability remains a major challenge. While recent generative models, particularly diffusion-based approaches, have significantly improved NVS quality, existing evaluation metrics struggle to assess whether a generated image is both realistic and faithful to the source view and intended viewpoint transformation. Standard metrics, such as pixel-wise similarity and distribution-based measures, often mis-rank incorrect results as they fail to capture the nuanced relationship between the source image, viewpoint change, and generated output. We propose a task-aware evaluation framework that leverages features from a strong NVS foundation model, Zero123, combined with a lightweight tuning step to enhance discrimination. Using these features, we introduce two complementary evaluation metrics: a reference-based score, $D_{\text{PRISM}}$, and a reference-free score, $\text{MMD}_{\text{PRISM}}$. Both reliably identify incorrect generations and rank models in agreement with human preference studies, addressing a fundamental gap in NVS evaluation. Our framework provides a principled and practical approach to assessing synthesis quality, paving the way for more reliable progress in novel view synthesis. To further support this goal, we apply our reference-free metric to six NVS methods across three benchmarks: Toys4K, Google Scanned Objects (GSO), and OmniObject3D, where $\text{MMD}_{\text{PRISM}}$ produces a clear and stable ranking, with lower scores consistently indicating stronger models.
- Abstract(参考訳): ノベルビュー合成(NVS)の目的は、未知の視点から与えられたコンテンツのリアルなイメージを生成することである。
しかし、生成したイメージが本当に意図した変換を反映していると、どうやって信じられますか?
信頼性を評価することは依然として大きな課題である。
最近の生成モデル、特に拡散に基づくアプローチは、NVSの品質を著しく向上させているが、既存の評価指標は、生成された画像がソースビューと意図された視点変換の両方に現実的かつ忠実であるかどうかを評価するのに苦労している。
ピクセル単位での類似性や分布に基づく測定のような標準メトリクスは、ソース画像と視点の変化、生成した出力の間の微妙な関係を捉えなかったため、しばしば誤った結果のランクを間違える。
我々は,強力なNVS基盤モデルであるZero123の機能と,識別性を高めるための軽量なチューニングステップを組み合わせたタスク認識評価フレームワークを提案する。
これらの特徴を用いて、参照ベースのスコア、$D_{\text{PRISM}}$、および参照なしスコア、$\text{MMD}_{\text{PRISM}}$の2つの相補的評価指標を導入する。
どちらも、NVS評価における根本的なギャップに対処するため、人間の嗜好研究と一致して、誤った世代とランクモデルを確実に特定する。
われわれのフレームワークは、合成品質を評価するための原則的で実践的なアプローチを提供し、新しい視点合成におけるより信頼性の高い進歩の道を開く。
Toys4K、Google Scanned Objects (GSO)、OmniObject3D、$\text{MMD}_{\text{PRISM}}$という3つのベンチマークで、基準なしのメトリックを6つのNVSメソッドに適用します。
関連論文リスト
- GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks? [29.804627410258732]
我々は、ペアワイズ比較パラダイムを活用する統一評価フレームワークを導入し、安定的かつ人道的な評価を確実にする。
提案手法は,評価精度を20%以上向上し,信頼性の高いLMArenaリーダボードとSpearmanの0.86の相関性を実現する。
論文 参考訳(メタデータ) (2026-02-05T18:52:48Z) - REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation [10.151027538362259]
REVEALERは、強化誘導視覚推論に基づく要素レベルのアライメント評価のための統一的なフレームワークである。
提案手法は,MLLM(Multimodal Large Language Models)を用いて意味的要素を明示的にローカライズし,解釈可能なアライメント判断を導出する。
論文 参考訳(メタデータ) (2025-12-29T03:24:09Z) - Non-Aligned Reference Image Quality Assessment for Novel View Synthesis [8.68364429451164]
新規ビュー合成(NVS)画像に適した非テンポラル参照(NAR-IQA)フレームワークを提案する。
我々のモデルは、LoRA強化DINOv2埋め込みを組み込んだ対照的な学習フレームワーク上に構築されている。
我々は,NVSにおける非整合参照を見る際に,人間の嗜好に関するデータを集めるために,新しいユーザスタディを実施している。
論文 参考訳(メタデータ) (2025-11-11T12:08:12Z) - MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks [50.53294970211443]
ガウススプラッティング (GS) は3次元オブジェクト再構成の有望な技術として登場し, 再現速度を大幅に改善した高品質なレンダリング結果を提供している。
異なるGSベースの方法で再構成された3Dオブジェクトの知覚的品質を評価することは、依然としてオープンな課題である。
本研究では,GS法で再構成されたオブジェクトに対する人間の視聴動作を忠実に模倣する,マルチ距離主観的品質評価手法を提案する。
提案手法は,複数の不確実性下での各種GSベースの再構築手法の堅牢性を評価するためのベンチマークと,既存の品質評価指標の性能を評価するためのベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-10T08:21:11Z) - OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment [55.59322229889159]
我々は,マルチタスク品質推論を連続的かつ解釈可能な報酬信号に変換する統一報酬モデリングフレームワークOmniQuality-Rを提案する。
我々は、推論強化報酬モデルデータセットを使用して、教師付き微調整のための信頼性の高いチェーンオブ思考データセットを構築します。
OmniQuality-Rは,美的品質評価,技術的品質評価,テキスト画像アライメントという3つの重要なIQAタスクで評価する。
論文 参考訳(メタデータ) (2025-10-12T13:46:28Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models [0.026861992804651083]
本稿では拡散生成集合から最も信頼できるSRサンプルを特定するための堅牢なフレームワークを提案する。
本稿では,意味的類似性に基づいてSR信頼性を定量化するハイブリッド尺度TWSを提案する。
アウトプットを人間の期待と意味的正しさに合わせることで、この研究は生成的SRにおける信頼性の新たなベンチマークを定めている。
論文 参考訳(メタデータ) (2025-06-25T21:00:44Z) - Hierarchical Scoring with 3D Gaussian Splatting for Instance Image-Goal Navigation [27.040017548286812]
インスタンスイメージゴールナビゲーション(IIN)では、任意の視点から捉えた参照画像に描かれた対象物や場所を特定し、ナビゲートする必要がある。
ターゲットマッチングのための最適視点を推定する階層的スコアリングパラダイムを備えた新しいIINフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-09T00:58:14Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - TISE: A Toolbox for Text-to-Image Synthesis Evaluation [9.092600296992925]
単目的と多目的のテキスト・ツー・イメージ合成のための最先端手法の研究を行う。
これらの手法を評価するための共通フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-02T16:39:35Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。