論文の概要: CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination
- arxiv url: http://arxiv.org/abs/2207.03961v1
- Date: Fri, 8 Jul 2022 15:28:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 12:47:14.548421
- Title: CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination
- Title(参考訳): CoSIm: 反現実的シーンイマジネーションのためのコモンセンス推論
- Authors: Hyounghun Kim, Abhay Zala, Mohit Bansal
- Abstract要約: 我々はCoSIm(Comonsense Reasoning for Counterfactual Scene Imagination)と呼ばれる新しいタスク/データセットを導入する。
CoSImは、シーン変更の想像力を推論するAIシステムの能力を評価するように設計されている。
- 参考スコア(独自算出の注目度): 87.4797527628459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As humans, we can modify our assumptions about a scene by imagining
alternative objects or concepts in our minds. For example, we can easily
anticipate the implications of the sun being overcast by rain clouds (e.g., the
street will get wet) and accordingly prepare for that. In this paper, we
introduce a new task/dataset called Commonsense Reasoning for Counterfactual
Scene Imagination (CoSIm) which is designed to evaluate the ability of AI
systems to reason about scene change imagination. In this task/dataset, models
are given an image and an initial question-response pair about the image. Next,
a counterfactual imagined scene change (in textual form) is applied, and the
model has to predict the new response to the initial question based on this
scene change. We collect 3.5K high-quality and challenging data instances, with
each instance consisting of an image, a commonsense question with a response, a
description of a counterfactual change, a new response to the question, and
three distractor responses. Our dataset contains various complex scene change
types (such as object addition/removal/state change, event description,
environment change, etc.) that require models to imagine many different
scenarios and reason about the changed scenes. We present a baseline model
based on a vision-language Transformer (i.e., LXMERT) and ablation studies.
Through human evaluation, we demonstrate a large human-model performance gap,
suggesting room for promising future work on this challenging counterfactual,
scene imagination task. Our code and dataset are publicly available at:
https://github.com/hyounghk/CoSIm
- Abstract(参考訳): 人間として、私たちの心の中の代替物や概念を想像することで、シーンに関する仮定を修正できます。
例えば、雨雲(例えば、通りは濡れる)によって太陽が曇りすぎているという影響を予測でき、それに備えることができる。
本稿では,シーン変化の想像力を推論するAIシステムの能力を評価するために,CoSIm(Commonsense Reasoning for Counterfactual Scene Imagination)というタスク/データセットを提案する。
このタスク/データセットでは、モデルに画像と初期質問応答ペアが与えられる。
次に、(テキスト形式で)反事実的なシーン変化を適用し、このシーン変化に基づいて、最初の質問に対する新しい応答を予測しなければならない。
私たちは3.5kの高品質で挑戦的なデータインスタンスを収集し、各インスタンスは画像、応答を伴う常識的な質問、反事実的な変更の説明、質問に対する新しい応答、そして3つの邪魔者応答からなる。
私たちのデータセットには、さまざまな複雑なシーン変更タイプ(オブジェクトの追加/削除/状態の変更、イベント記述、環境変更など)が含まれています。
本稿では,視覚言語トランスフォーマー(lxmert)に基づくベースラインモデルとアブレーション研究について述べる。
人的評価を通じて、人間モデルの性能格差を大きく示し、この挑戦的な対実的、シーンの想像力的なタスクに将来を期待できる余地を示唆する。
私たちのコードとデータセットは、https://github.com/hyounghk/CoSImで公開されています。
関連論文リスト
- The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - Neural Scene Chronology [79.51094408119148]
我々は、視点、照明、時間の独立した制御で写真リアルなレンダリングをレンダリングできる、時間変化の3Dモデルを再構築することを目指している。
本研究では,画像ごとの照明を埋め込んだ時空間放射場として,時間的に変化するシーン変化を学習ステップ関数のセットを用いて符号化する。
論文 参考訳(メタデータ) (2023-06-13T17:59:58Z) - Structured Generative Models for Scene Understanding [4.5053219193867395]
本稿では,静的なシーンの理解にEmphstructured Generative Model(SGM)を用いることを論じる。
SGMのアプローチは、それが構成的かつ生成的であり、解釈可能性と編集可能性をもたらすという利点がある。
SGMの最も難しい問題は、オブジェクト、照明とカメラパラメータ、および1つまたは複数の画像からなる入力からのシーン相互関連性である。
論文 参考訳(メタデータ) (2023-02-07T15:23:52Z) - Finding Differences Between Transformers and ConvNets Using
Counterfactual Simulation Testing [82.67716657524251]
本稿では,ニューラルネットワークの自然的変動に対するロバスト性を研究するための反現実的枠組みを提案する。
我々の手法は、最近リリースされた最先端の畳み込みニューラルネットワークとビジョントランスフォーマーの頑健さを公平に比較することができる。
論文 参考訳(メタデータ) (2022-11-29T18:59:23Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Hallucinating Pose-Compatible Scenes [55.064949607528405]
ポーズ条件付きシーン生成のための大規模生成対向ネットワークを提案する。
毎日の環境に1900万フレーム以上の人間がいる巨大なメタデータをキュレートします。
我々は、ポーズ互換シーンを人間の有無に関わらず幻覚化し、不整合シーンやポーズを可視化し、1つの生成された画像から別のシーンに人物を配置し、ポーズをアニメーションする様々な用途に、トレーニングされたモデルを活用する。
論文 参考訳(メタデータ) (2021-12-13T18:59:26Z) - Stochastic Scene-Aware Motion Prediction [41.6104600038666]
本稿では,対象物に対して所定の動作を行う異なるスタイルをモデル化する,データ駆動合成動作法を提案する。
SAMP (Scene Aware Motion Prediction) と呼ばれる本手法は, 様々なジオメトリ対象を対象とし, キャラクタが散らばったシーンで移動できるように一般化する。
論文 参考訳(メタデータ) (2021-08-18T17:56:17Z) - GIRAFFE: Representing Scenes as Compositional Generative Neural Feature
Fields [45.21191307444531]
深部生成モデルは、高解像度で光リアルな画像合成を可能にする。
しかし、多くのアプリケーションにとって、これは十分ではない。コンテンツ生成も制御可能である必要がある。
我々のキーとなる仮説は、構成的な3Dシーン表現を生成モデルに組み込むことにより、より制御可能な画像合成につながるというものである。
論文 参考訳(メタデータ) (2020-11-24T14:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。