論文の概要: Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding
- arxiv url: http://arxiv.org/abs/2212.06971v1
- Date: Wed, 14 Dec 2022 01:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:19:21.781356
- Title: Find Someone Who: Visual Commonsense Understanding in Human-Centric
Grounding
- Title(参考訳): 人間中心の接地における視覚的コモンセンス理解
- Authors: Haoxuan You, Rui Sun, Zhecan Wang, Kai-Wei Chang, Shih-Fu Chang
- Abstract要約: 我々は,新しいコモンセンスタスク,Human-centric Commonsense Groundingを提案する。
モデルが個人を接地する能力をテストする。
本研究では,従来の事前学習モデルや非事前学習モデルよりも優れたコンテキストオブジェクト認識手法を強いベースラインとして設定した。
- 参考スコア(独自算出の注目度): 87.39245901710079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From a visual scene containing multiple people, human is able to distinguish
each individual given the context descriptions about what happened before,
their mental/physical states or intentions, etc. Above ability heavily relies
on human-centric commonsense knowledge and reasoning. For example, if asked to
identify the "person who needs healing" in an image, we need to first know that
they usually have injuries or suffering expressions, then find the
corresponding visual clues before finally grounding the person. We present a
new commonsense task, Human-centric Commonsense Grounding, that tests the
models' ability to ground individuals given the context descriptions about what
happened before, and their mental/physical states or intentions. We further
create a benchmark, HumanCog, a dataset with 130k grounded commonsensical
descriptions annotated on 67k images, covering diverse types of commonsense and
visual scenes. We set up a context-object-aware method as a strong baseline
that outperforms previous pre-trained and non-pretrained models. Further
analysis demonstrates that rich visual commonsense and powerful integration of
multi-modal commonsense are essential, which sheds light on future works. Data
and code will be available https://github.com/Hxyou/HumanCog.
- Abstract(参考訳): 複数の人物を含む視覚シーンから、人間は、以前に何が起こったか、その精神的・肉体的状態や意図などに関するコンテキスト記述を与えられた個々の個人を区別することができる。
能力は人間中心の常識知識と推論に大きく依存する。
例えば、画像で「癒しを必要とする人」を識別するように求められた場合、まずは怪我や表情に苦しむことを知り、最後に相手を接地する前に対応する視覚手がかりを見つける必要がある。
我々は、以前に何が起こったのか、その精神的・物理的状態や意図について、モデルが個人をグラウンド化する能力をテストする、新しいコモンセンスタスク、Human-centric Commonsense Groundingを提示する。
さらにベンチマークであるHumanCogという,67kイメージに注釈付けされた130kの共通感覚記述を備えたデータセットも作成しています。
従来の事前学習モデルや非訓練モデルに匹敵する強力なベースラインとしてコンテキストオブジェクト認識手法を設定した。
さらなる分析により、リッチなビジュアル・コモンセンスとマルチモーダル・コモンセンスの強力な統合が不可欠であることが示され、将来の作品に光を当てている。
データとコードはhttps://github.com/hxyou/humancogで入手できる。
関連論文リスト
- CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - A natural language processing-based approach: mapping human perception
by understanding deep semantic features in street view images [2.5880672192855414]
本研究では,人間の知覚とシーンの関係を理解するために,事前学習型自然言語モデルに基づく新しいフレームワークを提案する。
以上の結果から, 深い意味的特徴による人間の知覚評価は, 浅い特徴を持つ機械学習手法による従来の研究よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-11-29T05:00:43Z) - HumanBench: Towards General Human-centric Perception with Projector
Assisted Pretraining [75.1086193340286]
汎用的な人中心下流作業のための一般的な事前訓練モデルを持つことが望ましい。
本研究では,既存のデータセットをベースとしたtextbfHumanBench を提案する。
我々のPATHは、17の下流データセットと他の2つのデータセットの中間結果に対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2023-03-10T02:57:07Z) - MECCANO: A Multimodal Egocentric Dataset for Humans Behavior
Understanding in the Industrial-like Domain [23.598727613908853]
本稿では,産業的な環境下での人間の行動理解を目的とした,エゴセントリックなビデオのデータセットMECCANOを提案する。
マルチモダリティの特徴は、視線信号、深度マップ、RGBビデオとカスタムヘッドセットが同時に取得される点である。
データセットは、人間の行動理解の文脈における基本的なタスクに対して、一人称視点から明示的にラベル付けされている。
論文 参考訳(メタデータ) (2022-09-19T00:52:42Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - VisualCOMET: Reasoning about the Dynamic Context of a Still Image [97.20800299330078]
ビジュアルコモンセンス推論のためのフレームワークであるVisualCometを提案する。
VisualCometは、以前に起こりそうなイベント、次に起こる可能性のあるイベント、現在の人々の意図を予測する。
Visual Commonsense Graphsの最初の大規模リポジトリを紹介します。
論文 参考訳(メタデータ) (2020-04-22T19:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。