Fugu-MT 論文翻訳(概要): When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes

論文の概要: When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes

arxiv url: http://arxiv.org/abs/2104.02215v1
Date: Tue, 6 Apr 2021 01:05:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-07 14:24:28.113765
Title: When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes
Title（参考訳）: 豚が飛ぶとき:合成シーンと自然シーンにおける文脈推論
Authors: Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire Tseng, Gabriel Kreiman
Abstract要約: コンテキストは人間と機械の両方の視覚にとって基本的な重要性である。ここでは、シーンコンテキストをきめ細かい粒度で制御する多種多様で総合的なアウトオブコンテキストデータセットを紹介する。我々は,文脈外認識のためのヒューマンベンチマークを確立するために心理物理学実験を行う。マルチヘッドアテンションによるオブジェクトとコンテキスト情報の融合によるコンテキスト認識トランスフォーマーモデルを提案する。
参考スコア（独自算出の注目度）: 7.8814500102882805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Context is of fundamental importance to both human and machine vision -- an object in the air is more likely to be an airplane, than a pig. The rich notion of context incorporates several aspects including physics rules, statistical co-occurrences, and relative object sizes, among others. While previous works have crowd-sourced out-of-context photographs from the web to study scene context, controlling the nature and extent of contextual violations has been an extremely daunting task. Here we introduce a diverse, synthetic Out-of-Context Dataset (OCD) with fine-grained control over scene context. By leveraging a 3D simulation engine, we systematically control the gravity, object co-occurrences and relative sizes across 36 object categories in a virtual household environment. We then conduct a series of experiments to gain insights into the impact of contextual cues on both human and machine vision using OCD. First, we conduct psycho-physics experiments to establish a human benchmark for out-of-context recognition, and then compare it with state-of-the-art computer vision models to quantify the gap between the two. Finally, we propose a context-aware recognition transformer model, fusing object and contextual information via multi-head attention. Our model captures useful information for contextual reasoning, enabling human-level performance and significantly better robustness in out-of-context conditions compared to baseline models across OCD and other existing out-of-context natural image datasets. All source code and data are publicly available https://github.com/kreimanlab/WhenPigsFlyContext.
Abstract（参考訳）: 人間と機械の視覚にとってコンテキストは極めて重要であり、空気中の物体は豚よりも飛行機である可能性が高い。文脈の豊富な概念は、物理規則、統計的共起、相対的対象サイズなどを含むいくつかの側面を含む。これまで、ウェブからコンテキスト外写真をクラウドソースして、シーンのコンテキストを研究してきたが、コンテキスト違反の性質と程度を制御することは、非常に厄介な作業だった。ここでは、シーンコンテキストをきめ細かく制御する多種多様な合成アウトオブコンテキストデータセット(OCD)を紹介する。 3次元シミュレーションエンジンを利用することで、仮想家庭環境における36の対象カテゴリにわたる重力、物体共起、相対サイズを体系的に制御する。次に、OCDを用いた人間と機械の両方の視覚に対する文脈的手がかりの影響について、一連の実験を行った。まず、心理物理学実験を行い、文脈外認識のための人間のベンチマークを確立し、次に最先端のコンピュータビジョンモデルと比較し、両者のギャップを定量化する。最後に,マルチヘッドアテンションによるオブジェクトとコンテキスト情報を融合したコンテキスト認識型トランスフォーマモデルを提案する。私たちのモデルはコンテキスト推論に有用な情報をキャプチャし、ocdや他の既存のアウトオブコンテキスト自然画像データセットのベースラインモデルと比較して、人間レベルのパフォーマンスとアウトオブコンテキスト条件のロバスト性を大幅に向上します。すべてのソースコードとデータはhttps://github.com/kreimanlab/WhenPigsFlyContextで公開されている。

関連論文リスト

Common Inpainted Objects In-N-Out of Context [21.387506141979188]
Common Inpainted Objects In-N-Out of Context (COinCO)は、既存のビジョンデータセットにおけるコンテキスト外例の不足に対処する新しいデータセットである。本研究では,COCO画像のオブジェクトを拡散型塗布により体系的に置き換えることにより,コンテキスト的に一貫性のあるシーンと一貫性のないシーンの両方を特徴付ける97,722個のユニークな画像を生成する。
論文参考訳（メタデータ） (2025-05-31T21:42:12Z)
SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。 SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。 SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文参考訳（メタデータ） (2025-03-28T20:53:20Z)
Exploring Disentangled and Controllable Human Image Synthesis: From End-to-End to Stage-by-Stage [34.72900198337818]
そこで我々は,新しい非絡み合い・制御可能な人間合成タスクを導入する。本稿ではまず,MVHumanNetで学習した要素不絡に対するエンドツーエンド生成モデルを提案する。本稿では,人間の画像生成を3段階に分解するステージバイステージフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-25T09:23:20Z)
ViRAC: A Vision-Reasoning Agent Head Movement Control Framework in Arbitrary Virtual Environments [0.13654846342364302]
本稿では,大規模モデルの常識的知識と推論能力を活用するViRACを提案する。 ViRACは最近の最先端技術よりも自然でコンテキスト対応の頭部回転を生成する。
論文参考訳（メタデータ） (2025-02-14T09:46:43Z)
Drive-1-to-3: Enriching Diffusion Priors for Novel View Synthesis of Real Vehicles [81.29018359825872]
本稿では,実世界の課題に対して,大規模な事前学習モデルを微調整するための一連の優れたプラクティスを統合する。具体的には,合成データと実運転データとの相違を考慮に入れたいくつかの戦略を開発する。我々の洞察は、先行芸術よりも新しいビュー合成のためのFIDを68.8%値下げする効果のある微調整につながる。
論文参考訳（メタデータ） (2024-12-19T03:39:13Z)
Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文参考訳（メタデータ） (2024-11-04T09:43:33Z)
Estimating the distribution of numerosity and non-numerical visual magnitudes in natural scenes using computer vision [0.08192907805418582]
自然の視覚的な場面では、異なる数列の出現頻度は、電力法分布に従うことを示す。本研究では, 連続度と数値の相関構造が, データセット, シーンタイプ間で安定であることを示す。
論文参考訳（メタデータ） (2024-09-17T09:49:29Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。 GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文参考訳（メタデータ） (2024-01-24T09:07:11Z)
Now You See Me: Robust approach to Partial Occlusions [0.15229257192293202]
オブジェクトの排除はコンピュータビジョンにおいて不可欠である問題の1つである。本稿では,Stanford Carのデータセットを利用した合成データセットについて紹介する。我々は,VGG-19,ResNet 50/101,GoogleNet,DenseNet 121などの芸術CNNモデルのさまざまな状態を用いて総合解析を行う。
論文参考訳（メタデータ） (2023-04-24T00:31:49Z)
Narrator: Towards Natural Control of Human-Scene Interaction Generation via Relationship Reasoning [34.00107506891627]
テキスト記述から現実的で多様なHSIを自然かつ制御的に生成することに焦点を当てる。本研究では,新たな関係推論に基づく生成手法であるNarratorを提案する。我々の実験と知覚学的研究は、Narratorが様々な相互作用を制御可能であり、既存の作品よりもはるかに優れていることを示している。
論文参考訳（メタデータ） (2023-03-16T15:44:15Z)
Finding Differences Between Transformers and ConvNets Using Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文参考訳（メタデータ） (2022-11-29T18:59:23Z)
StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文参考訳（メタデータ） (2022-04-25T17:55:08Z)
Pose2Room: Understanding 3D Scenes from Human Activities [35.702234343672565]
ウェアラブルIMUセンサーを使えば、視覚的な入力を必要とせずに、ウェアラブルデバイスから人間のポーズを推定することができる。 P2R-Netは人体の動きの多モード分布を効果的に学習できることを示す。
論文参考訳（メタデータ） (2021-12-01T20:54:36Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。