論文の概要: Evaluating Multiview Object Consistency in Humans and Image Models
- arxiv url: http://arxiv.org/abs/2409.05862v2
- Date: Tue, 10 Sep 2024 02:28:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 12:03:11.197440
- Title: Evaluating Multiview Object Consistency in Humans and Image Models
- Title(参考訳): 人間と画像モデルにおける多視点オブジェクト整合性の評価
- Authors: Tyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros,
- Abstract要約: 我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
- 参考スコア(独自算出の注目度): 68.36073530804296
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a benchmark to directly evaluate the alignment between human observers and vision models on a 3D shape inference task. We leverage an experimental design from the cognitive sciences which requires zero-shot visual inferences about object shape: given a set of images, participants identify which contain the same/different objects, despite considerable viewpoint variation. We draw from a diverse range of images that include common objects (e.g., chairs) as well as abstract shapes (i.e., procedurally generated `nonsense' objects). After constructing over 2000 unique image sets, we administer these tasks to human participants, collecting 35K trials of behavioral data from over 500 participants. This includes explicit choice behaviors as well as intermediate measures, such as reaction time and gaze data. We then evaluate the performance of common vision models (e.g., DINOv2, MAE, CLIP). We find that humans outperform all models by a wide margin. Using a multi-scale evaluation approach, we identify underlying similarities and differences between models and humans: while human-model performance is correlated, humans allocate more time/processing on challenging trials. All images, data, and code can be accessed via our project page.
- Abstract(参考訳): 人間の観察者と視覚モデルとのアライメントを直接評価するベンチマークを3次元形状推論タスクで導入する。
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学からの実験的デザインを利用する:一組のイメージを与えられた参加者は、かなりの視点の変化にもかかわらず、同じ/異なる物体を含むものを識別する。
一般的な物体(例:椅子)や抽象的な形状(例:手続き的に生成された「ナンセンス」物体)を含む多様な画像から抽出する。
2000以上のユニークなイメージセットを構築した後、これらのタスクを人間の被験者に管理し、500人以上の参加者から35Kの行動データを収集した。
これには明確な選択行動や、反応時間や視線データなどの中間測度が含まれる。
次に、一般的な視覚モデル(例えば、DINOv2、MAE、CLIP)の性能を評価する。
人間はあらゆるモデルよりも広いマージンで優れています。
マルチスケール評価手法を用いて、モデルと人間の相似性と相違点を同定する。人間モデルの性能は相関するが、人間は挑戦的な試行により多くの時間/処理を割り当てる。
すべてのイメージ、データ、コードは、プロジェクトページからアクセスできます。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - UniAR: A Unified model for predicting human Attention and Responses on visual content [12.281060227170792]
多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。
自然画像、Webページ、グラフィックデザインにまたがる様々な公開データセットに基づいてUniARをトレーニングし、複数のベンチマークでSOTA性能を達成する。
潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Reconstructing Action-Conditioned Human-Object Interactions Using
Commonsense Knowledge Priors [42.17542596399014]
本稿では,画像から人-物間相互作用の多種多様な3次元モデルを推定する手法を提案する。
提案手法は,大規模言語モデルから高レベルのコモンセンス知識を抽出する。
本研究では,大規模な人-物間相互作用データセットを用いて,推定された3次元モデルを定量的に評価する。
論文 参考訳(メタデータ) (2022-09-06T13:32:55Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Benchmarking human visual search computational models in natural scenes:
models comparison and reference datasets [0.0]
我々は、自然の場面で利用可能な最先端のビジュアル検索モデルを選択し、異なるデータセットで評価する。
本稿では,ニューラルネットワークに基づくビジュアルサーチモデルと組み合わせて,理想ベイズ探索法の改良を提案する。
論文 参考訳(メタデータ) (2021-12-10T19:56:45Z) - Learning Online Visual Invariances for Novel Objects via Supervised and
Self-Supervised Training [0.76146285961466]
本稿では,複数の変換を行う合成3Dオブジェクトの画像を認識するためのトレーニングモデルにより,標準的なCNNが人間のようなオンライン不変性をサポートできるかどうかを評価する。
変換対象を訓練した標準教師付きCNNは,10クラスから50個のオブジェクトを抽出して訓練しても,新しいクラスで強い不変性を得ることができることを示す。
論文 参考訳(メタデータ) (2021-10-04T14:29:43Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。