論文の概要: Generating metamers of human scene understanding
- arxiv url: http://arxiv.org/abs/2601.11675v1
- Date: Fri, 16 Jan 2026 06:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.27531
- Title: Generating metamers of human scene understanding
- Title(参考訳): ヒトのシーン理解におけるメタマーの生成
- Authors: Ritik Raina, Abe Leite, Alexandros Graikos, Seoyoung Ahn, Dimitris Samaras, Gregory J. Zelinsky,
- Abstract要約: そこで我々はMetamerGenを紹介した。MetamerGenは、潜伏した人間のシーン表現と整合したシーンを生成するツールだ。
高解像度と低解像度の両方の入力から画像を生成すること(すなわち「発見」)は、新しい画像と画像の合成問題を構成する。
高レベルのセマンティックアライメントは、生成されたシーンが視聴者自身の固定された領域で条件付けられたときに、メタメリズムを最も強く予測する。
- 参考スコア(独自算出の注目度): 67.68406304999473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human vision combines low-resolution "gist" information from the visual periphery with sparse but high-resolution information from fixated locations to construct a coherent understanding of a visual scene. In this paper, we introduce MetamerGen, a tool for generating scenes that are aligned with latent human scene representations. MetamerGen is a latent diffusion model that combines peripherally obtained scene gist information with information obtained from scene-viewing fixations to generate image metamers for what humans understand after viewing a scene. Generating images from both high and low resolution (i.e. "foveated") inputs constitutes a novel image-to-image synthesis problem, which we tackle by introducing a dual-stream representation of the foveated scenes consisting of DINOv2 tokens that fuse detailed features from fixated areas with peripherally degraded features capturing scene context. To evaluate the perceptual alignment of MetamerGen generated images to latent human scene representations, we conducted a same-different behavioral experiment where participants were asked for a "same" or "different" response between the generated and the original image. With that, we identify scene generations that are indeed metamers for the latent scene representations formed by the viewers. MetamerGen is a powerful tool for understanding scene understanding. Our proof-of-concept analyses uncovered specific features at multiple levels of visual processing that contributed to human judgments. While it can generate metamers even conditioned on random fixations, we find that high-level semantic alignment most strongly predicts metamerism when the generated scenes are conditioned on viewers' own fixated regions.
- Abstract(参考訳): 人間の視覚は、視覚周辺からの低解像度の「ギスト」情報と、固定された場所からのスパースだが高解像度の情報を組み合わせて、視覚シーンのコヒーレントな理解を構築する。
本稿では,潜伏した人間のシーン表現に整合したシーンを生成するMetamerGenを紹介する。
MetamerGenは、周辺から得られたシーンギスト情報とシーンビューの固定から得られる情報を組み合わせて、人間がシーンを見た後に理解した画像メタマーを生成する潜伏拡散モデルである。
高解像度と低解像度の両方の入力から画像を生成することは、DINOv2トークンからなるフェーブされたシーンの二重ストリーム表現を導入し、シーンコンテキストをキャプチャする機能を有する固定された領域からの詳細な特徴を融合させることによって、新しい画像合成問題を構成する。
メタマージェネレーション生成画像の潜在人シーン表現に対する知覚的アライメントを評価するために,被験者が生成した画像と原画像の「相」あるいは「相」の反応を尋ねる等微分行動実験を行った。
これにより、視聴者によって形成された潜在シーン表現のメタマーであるシーン世代を同定する。
MetamerGenはシーン理解の強力なツールです。
概念実証分析により、人間の判断に寄与する視覚的処理の複数のレベルにおいて、特定の特徴が明らかになった。
ランダムな固定で条件付けされたメタマーを生成できるが、高レベルのセマンティックアライメントは、生成したシーンが視聴者自身の固定された領域で条件付けされた場合に、最も強くメタメリズムを予測する。
関連論文リスト
- From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Identity-Preserving Talking Face Generation with Landmark and Appearance
Priors [106.79923577700345]
既存の人物生成法は、現実的でリップ同期のビデオを生成するのに困難である。
本稿では,ランドマーク生成とランドマーク・ツー・ビデオレンダリングによる2段階のフレームワークを提案する。
提案手法は,既存の対人顔生成法よりも現実的で,リップシンクで,アイデンティティを保ったビデオを生成することができる。
論文 参考訳(メタデータ) (2023-05-15T01:31:32Z) - Semantically Consistent Person Image Generation [18.73832646369506]
文脈認識型人物画像生成のためのデータ駆動型アプローチを提案する。
本手法では,生成した人物の位置,規模,外観を,現場の既存人物に対して意味的に条件付けする。
論文 参考訳(メタデータ) (2023-02-28T16:34:55Z) - Understanding Cross-modal Interactions in V&L Models that Generate Scene
Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。
映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。
本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文 参考訳(メタデータ) (2022-11-09T15:33:51Z) - Advances in Neural Rendering [115.05042097988768]
本稿では,古典的レンダリングと学習された3Dシーン表現を組み合わせた手法について述べる。
これらの手法の重要な利点は、これらが3D一貫性を持ち、キャプチャされたシーンの新たな視点のようなアプリケーションを可能にすることである。
静的なシーンを扱う方法に加えて、非厳密な変形オブジェクトをモデル化するためのニューラルシーン表現についても取り上げる。
論文 参考訳(メタデータ) (2021-11-10T18:57:01Z) - Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。
我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文 参考訳(メタデータ) (2020-11-20T12:37:10Z) - Sketching Image Gist: Human-Mimetic Hierarchical Scene Graph Generation [98.34909905511061]
望ましいシーングラフは階層的に構築されるべきであり,シーングラフをモデル化するための新しいスキームを導入する。
HETに基づいてシーングラフを生成するために,階層と兄弟関係を具体的にエンコードするHETをHybrid-LSTM(Hybrid-LSTM)で解析する。
シーングラフにおける重要な関係性をさらに優先順位付けするために、関係ランク付けモジュール(RRM)を考案し、それらのランク付けを動的に調整する。
論文 参考訳(メタデータ) (2020-07-17T05:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。