論文の概要: When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
- arxiv url: http://arxiv.org/abs/2104.02215v1
- Date: Tue, 6 Apr 2021 01:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:24:28.113765
- Title: When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
- Title(参考訳): 豚が飛ぶとき:合成シーンと自然シーンにおける文脈推論
- Authors: Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire
Tseng, Gabriel Kreiman
- Abstract要約: コンテキストは人間と機械の両方の視覚にとって基本的な重要性である。
ここでは、シーンコンテキストをきめ細かい粒度で制御する多種多様で総合的なアウトオブコンテキストデータセットを紹介する。
我々は,文脈外認識のためのヒューマンベンチマークを確立するために心理物理学実験を行う。
マルチヘッドアテンションによるオブジェクトとコンテキスト情報の融合によるコンテキスト認識トランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 7.8814500102882805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context is of fundamental importance to both human and machine vision -- an
object in the air is more likely to be an airplane, than a pig. The rich notion
of context incorporates several aspects including physics rules, statistical
co-occurrences, and relative object sizes, among others. While previous works
have crowd-sourced out-of-context photographs from the web to study scene
context, controlling the nature and extent of contextual violations has been an
extremely daunting task. Here we introduce a diverse, synthetic Out-of-Context
Dataset (OCD) with fine-grained control over scene context. By leveraging a 3D
simulation engine, we systematically control the gravity, object co-occurrences
and relative sizes across 36 object categories in a virtual household
environment. We then conduct a series of experiments to gain insights into the
impact of contextual cues on both human and machine vision using OCD. First, we
conduct psycho-physics experiments to establish a human benchmark for
out-of-context recognition, and then compare it with state-of-the-art computer
vision models to quantify the gap between the two. Finally, we propose a
context-aware recognition transformer model, fusing object and contextual
information via multi-head attention. Our model captures useful information for
contextual reasoning, enabling human-level performance and significantly better
robustness in out-of-context conditions compared to baseline models across OCD
and other existing out-of-context natural image datasets. All source code and
data are publicly available https://github.com/kreimanlab/WhenPigsFlyContext.
- Abstract(参考訳): 人間と機械の視覚にとってコンテキストは極めて重要であり、空気中の物体は豚よりも飛行機である可能性が高い。
文脈の豊富な概念は、物理規則、統計的共起、相対的対象サイズなどを含むいくつかの側面を含む。
これまで、ウェブからコンテキスト外写真をクラウドソースして、シーンのコンテキストを研究してきたが、コンテキスト違反の性質と程度を制御することは、非常に厄介な作業だった。
ここでは、シーンコンテキストをきめ細かく制御する多種多様な合成アウトオブコンテキストデータセット(OCD)を紹介する。
3次元シミュレーションエンジンを利用することで、仮想家庭環境における36の対象カテゴリにわたる重力、物体共起、相対サイズを体系的に制御する。
次に、OCDを用いた人間と機械の両方の視覚に対する文脈的手がかりの影響について、一連の実験を行った。
まず、心理物理学実験を行い、文脈外認識のための人間のベンチマークを確立し、次に最先端のコンピュータビジョンモデルと比較し、両者のギャップを定量化する。
最後に,マルチヘッドアテンションによるオブジェクトとコンテキスト情報を融合したコンテキスト認識型トランスフォーマモデルを提案する。
私たちのモデルはコンテキスト推論に有用な情報をキャプチャし、ocdや他の既存のアウトオブコンテキスト自然画像データセットのベースラインモデルと比較して、人間レベルのパフォーマンスとアウトオブコンテキスト条件のロバスト性を大幅に向上します。
すべてのソースコードとデータはhttps://github.com/kreimanlab/WhenPigsFlyContextで公開されている。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision [0.08192907805418582]
自然の視覚的な場面では、異なる数列の出現頻度は、電力法分布に従うことを示す。
本研究では, 連続度と数値の相関構造が, データセット, シーンタイプ間で安定であることを示す。
論文 参考訳(メタデータ) (2024-09-17T09:49:29Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - Now You See Me: Robust approach to Partial Occlusions [0.15229257192293202]
オブジェクトの排除はコンピュータビジョンにおいて不可欠である問題の1つである。
本稿では,Stanford Carのデータセットを利用した合成データセットについて紹介する。
我々は,VGG-19,ResNet 50/101,GoogleNet,DenseNet 121などの芸術CNNモデルのさまざまな状態を用いて総合解析を行う。
論文 参考訳(メタデータ) (2023-04-24T00:31:49Z) - Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning [34.00107506891627]
テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。
本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。
我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-03-16T15:44:15Z) - Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-29T18:59:23Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Pose2Room: Understanding 3D Scenes from Human Activities [35.702234343672565]
ウェアラブルIMUセンサーを使えば、視覚的な入力を必要とせずに、ウェアラブルデバイスから人間のポーズを推定することができる。
P2R-Netは人体の動きの多モード分布を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2021-12-01T20:54:36Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。