論文の概要: Comparing Visual Reasoning in Humans and AI
- arxiv url: http://arxiv.org/abs/2104.14102v1
- Date: Thu, 29 Apr 2021 04:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 22:41:31.255023
- Title: Comparing Visual Reasoning in Humans and AI
- Title(参考訳): 人間とaiの視覚的推論の比較
- Authors: Shravan Murlidaran, William Yang Wang, Miguel P. Eckstein
- Abstract要約: 人間の行動や社会的相互作用を含む複雑なシーンのデータセットを作成しました。
ai/ヒューマンのシーン記述と、各シーンの他の5つの人間記述の地上真実との類似度を定量的に測定した。
結果は、機械/人間の合意シーンの説明は、私たちの複雑なシーンの人間/人間の合意よりもはるかに低いことを示しています。
- 参考スコア(独自算出の注目度): 66.89451296340809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in natural language processing and computer vision have led
to AI models that interpret simple scenes at human levels. Yet, we do not have
a complete understanding of how humans and AI models differ in their
interpretation of more complex scenes. We created a dataset of complex scenes
that contained human behaviors and social interactions. AI and humans had to
describe the scenes with a sentence. We used a quantitative metric of
similarity between scene descriptions of the AI/human and ground truth of five
other human descriptions of each scene. Results show that the machine/human
agreement scene descriptions are much lower than human/human agreement for our
complex scenes. Using an experimental manipulation that occludes different
spatial regions of the scenes, we assessed how machines and humans vary in
utilizing regions of images to understand the scenes. Together, our results are
a first step toward understanding how machines fall short of human visual
reasoning with complex scenes depicting human behaviors.
- Abstract(参考訳): 自然言語処理とコンピュータビジョンの最近の進歩は、人間のレベルで単純なシーンを解釈するAIモデルにつながっている。
しかし、人間とAIモデルは、より複雑なシーンの解釈においてどのように異なるかを完全には理解していない。
人間の行動や社会的相互作用を含む複雑なシーンのデータセットを作成しました。
aiと人間はシーンを文で記述しなければならなかった。
ai/ヒューマンのシーン記述と、各シーンの他の5つの人間記述の地上真実との類似度を定量的に測定した。
以上の結果から, マシン/ヒューマンコンセンサスシーン記述は, 複雑なシーンに対する人間/人間コンセンサスよりもはるかに少ないことがわかった。
シーンの異なる空間領域を遮蔽する実験的な操作を用いて、シーンを理解するために画像の領域を利用することで、機械と人間がどのように異なるかを評価する。
共に、人間の行動を描いた複雑なシーンで、機械が人間の視覚的推論を欠く方法を理解するための第一歩です。
関連論文リスト
- Revisit Human-Scene Interaction via Space Occupancy [55.67657438543008]
HSI(Human-Scene Interaction)の生成は、さまざまな下流タスクに不可欠な課題である。
本研究では,シーンとのインタラクションが,抽象的な物理的視点からシーンの空間占有と本質的に相互作用していることを論じる。
純粋な動きシーケンスを、見えないシーン占有と相互作用する人間の記録として扱うことで、動きのみのデータを大規模にペア化された人間-占有相互作用データベースに集約することができる。
論文 参考訳(メタデータ) (2023-12-05T12:03:00Z) - Putting People in Their Place: Affordance-Aware Human Insertion into
Scenes [61.63825003487104]
本研究では,シーンに現実的に人を挿入する手法を提示することにより,シーンの空き度を推定する問題について検討する。
マークされた地域と人物のイメージのシーン画像が与えられた場合、シーンの余裕を尊重しながら、その人物をシーンに挿入する。
本モデルでは,シーンの状況に応じたリアルなポーズのセットを推測し,参照した人物を再構成し,構成を調和させることができる。
論文 参考訳(メタデータ) (2023-04-27T17:59:58Z) - Compositional 3D Human-Object Neural Animation [93.38239238988719]
人間と物体の相互作用(HOI)は、人間中心の視覚生成、AR/VR、ロボット工学などの人間中心のシーン理解アプリケーションに不可欠である。
本稿では,HoIアニメーションにおけるこの課題について,作曲の観点から考察する。
我々は、暗黙のニューラル表現に基づいてHOIダイナミクスをモデル化し、レンダリングするために、ニューラル・ヒューマン・オブジェクトの変形を採用する。
論文 参考訳(メタデータ) (2023-04-27T10:04:56Z) - Everyone Can Be Picasso? A Computational Framework into the Myth of
Human versus AI Painting [8.031314357134795]
我々は,人間の絵画とAI絵画の違いを調べるために,ニューラル潜在空間と美学の特徴を視覚分析と組み合わせた計算フレームワークを開発した。
AIアートワークは、潜在空間と、ストロークやシャープネスといった美的特徴の両方において、人間のアートワークと分布的な違いを示す。
本研究は,人間の絵画とAI絵画の相違点に関する具体的証拠を提供するとともに,美学と人間芸術家の関与を考慮し,AIアートの改善を示唆するものである。
論文 参考訳(メタデータ) (2023-04-17T05:48:59Z) - Human-Art: A Versatile Human-Centric Dataset Bridging Natural and
Artificial Scenes [15.48297730981114]
自然と人工のシナリオで関連するタスクをブリッジするために、Human-Artデータセットを導入します。
Human-Artには、5つの自然シナリオと15の人工シナリオから123k人以上のインスタンスを持つ、50kの高品質なイメージが含まれている。
また,人間の検出,2次元と3次元のポーズ推定,画像生成,移動移動など,関連する課題の詳細な分析とベースライン結果の豊富なセットも提供する。
論文 参考訳(メタデータ) (2023-03-05T20:05:21Z) - Scene Synthesis from Human Motion [26.2618553074691]
そこで本研究では,人間の動作に基づいて,多様で意味論的に合理的で,物理的に妥当なシーンを合成することを提案する。
Human Motion (MONSUM) のシーン・シンセサイザーには2つのステップがある。
まず、新たに導入されたコンタクト予測器であるContactFormerを使用して、人間の動きから時間的に一貫したコンタクトラベルを取得する。
論文 参考訳(メタデータ) (2023-01-04T03:30:46Z) - HUMANISE: Language-conditioned Human Motion Generation in 3D Scenes [54.61610144668777]
本稿では,3次元シーンで3次元人間の動きを生成できる新しいシーン・アンド・ランゲージ・コンディショニング・ジェネレーション・モデルを提案する。
実験により,我々のモデルは3次元シーンにおいて多様で意味的に一貫した人間の動きを生成できることを示した。
論文 参考訳(メタデータ) (2022-10-18T10:14:11Z) - Stochastic Scene-Aware Motion Prediction [41.6104600038666]
本稿では,対象物に対して所定の動作を行う異なるスタイルをモデル化する,データ駆動合成動作法を提案する。
SAMP (Scene Aware Motion Prediction) と呼ばれる本手法は, 様々なジオメトリ対象を対象とし, キャラクタが散らばったシーンで移動できるように一般化する。
論文 参考訳(メタデータ) (2021-08-18T17:56:17Z) - PLACE: Proximity Learning of Articulation and Contact in 3D Environments [70.50782687884839]
本研究では,人体と周囲の3Dシーンとの近接性をモデル化した新しいインタラクション生成手法PLACEを提案する。
我々の知覚学的研究は、PLACEが実際の人間とシーンの相互作用のリアリズムにアプローチし、最先端の手法を著しく改善することを示している。
論文 参考訳(メタデータ) (2020-08-12T21:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。