論文の概要: When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
- arxiv url: http://arxiv.org/abs/2104.02215v1
- Date: Tue, 6 Apr 2021 01:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:24:28.113765
- Title: When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
- Title(参考訳): 豚が飛ぶとき:合成シーンと自然シーンにおける文脈推論
- Authors: Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire
Tseng, Gabriel Kreiman
- Abstract要約: コンテキストは人間と機械の両方の視覚にとって基本的な重要性である。
ここでは、シーンコンテキストをきめ細かい粒度で制御する多種多様で総合的なアウトオブコンテキストデータセットを紹介する。
我々は,文脈外認識のためのヒューマンベンチマークを確立するために心理物理学実験を行う。
マルチヘッドアテンションによるオブジェクトとコンテキスト情報の融合によるコンテキスト認識トランスフォーマーモデルを提案する。
- 参考スコア(独自算出の注目度): 7.8814500102882805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context is of fundamental importance to both human and machine vision -- an
object in the air is more likely to be an airplane, than a pig. The rich notion
of context incorporates several aspects including physics rules, statistical
co-occurrences, and relative object sizes, among others. While previous works
have crowd-sourced out-of-context photographs from the web to study scene
context, controlling the nature and extent of contextual violations has been an
extremely daunting task. Here we introduce a diverse, synthetic Out-of-Context
Dataset (OCD) with fine-grained control over scene context. By leveraging a 3D
simulation engine, we systematically control the gravity, object co-occurrences
and relative sizes across 36 object categories in a virtual household
environment. We then conduct a series of experiments to gain insights into the
impact of contextual cues on both human and machine vision using OCD. First, we
conduct psycho-physics experiments to establish a human benchmark for
out-of-context recognition, and then compare it with state-of-the-art computer
vision models to quantify the gap between the two. Finally, we propose a
context-aware recognition transformer model, fusing object and contextual
information via multi-head attention. Our model captures useful information for
contextual reasoning, enabling human-level performance and significantly better
robustness in out-of-context conditions compared to baseline models across OCD
and other existing out-of-context natural image datasets. All source code and
data are publicly available https://github.com/kreimanlab/WhenPigsFlyContext.
- Abstract(参考訳): 人間と機械の視覚にとってコンテキストは極めて重要であり、空気中の物体は豚よりも飛行機である可能性が高い。
文脈の豊富な概念は、物理規則、統計的共起、相対的対象サイズなどを含むいくつかの側面を含む。
これまで、ウェブからコンテキスト外写真をクラウドソースして、シーンのコンテキストを研究してきたが、コンテキスト違反の性質と程度を制御することは、非常に厄介な作業だった。
ここでは、シーンコンテキストをきめ細かく制御する多種多様な合成アウトオブコンテキストデータセット(OCD)を紹介する。
3次元シミュレーションエンジンを利用することで、仮想家庭環境における36の対象カテゴリにわたる重力、物体共起、相対サイズを体系的に制御する。
次に、OCDを用いた人間と機械の両方の視覚に対する文脈的手がかりの影響について、一連の実験を行った。
まず、心理物理学実験を行い、文脈外認識のための人間のベンチマークを確立し、次に最先端のコンピュータビジョンモデルと比較し、両者のギャップを定量化する。
最後に,マルチヘッドアテンションによるオブジェクトとコンテキスト情報を融合したコンテキスト認識型トランスフォーマモデルを提案する。
私たちのモデルはコンテキスト推論に有用な情報をキャプチャし、ocdや他の既存のアウトオブコンテキスト自然画像データセットのベースラインモデルと比較して、人間レベルのパフォーマンスとアウトオブコンテキスト条件のロバスト性を大幅に向上します。
すべてのソースコードとデータはhttps://github.com/kreimanlab/WhenPigsFlyContextで公開されている。
関連論文リスト
- PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models [58.33913881592706]
人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
論文 参考訳(メタデータ) (2024-02-26T18:57:52Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [90.97595947781426]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Now You See Me: Robust approach to Partial Occlusions [0.15229257192293202]
オブジェクトの排除はコンピュータビジョンにおいて不可欠である問題の1つである。
本稿では,Stanford Carのデータセットを利用した合成データセットについて紹介する。
我々は,VGG-19,ResNet 50/101,GoogleNet,DenseNet 121などの芸術CNNモデルのさまざまな状態を用いて総合解析を行う。
論文 参考訳(メタデータ) (2023-04-24T00:31:49Z) - Narrator: Towards Natural Control of Human-Scene Interaction Generation
via Relationship Reasoning [34.00107506891627]
テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。
本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。
我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
論文 参考訳(メタデータ) (2023-03-16T15:44:15Z) - Context-aware 6D Pose Estimation of Known Objects using RGB-D data [3.48122098223937]
6Dオブジェクトのポーズ推定は、コンピュータビジョンとロボット工学の分野で研究トピックとなっている。
私たちは、以前の作業とは異なり、コンテキストアウェアなアーキテクチャを提示します。
実験の結果,LineMODデータセットの精度は約3.2%向上した。
論文 参考訳(メタデータ) (2022-12-11T18:01:01Z) - Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-29T18:59:23Z) - Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Pose2Room: Understanding 3D Scenes from Human Activities [35.702234343672565]
ウェアラブルIMUセンサーを使えば、視覚的な入力を必要とせずに、ウェアラブルデバイスから人間のポーズを推定することができる。
P2R-Netは人体の動きの多モード分布を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2021-12-01T20:54:36Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。