論文の概要: Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals
- arxiv url: http://arxiv.org/abs/2203.08075v1
- Date: Tue, 15 Mar 2022 17:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:39:12.343671
- Title: Things not Written in Text: Exploring Spatial Commonsense from Visual
Signals
- Title(参考訳): テキストに書かれていないもの:視覚信号から空間共通性を探る
- Authors: Xiao Liu, Da Yin, Yansong Feng, Dongyan Zhao
- Abstract要約: 視覚信号を持つモデルがテキストベースモデルよりも空間的コモンセンスを学習するかどうかを検討する。
本稿では,オブジェクトの相対スケールと,異なる動作下での人とオブジェクトの位置関係に着目したベンチマークを提案する。
画像合成モデルは,他のモデルよりも正確で一貫した空間知識を学習できることがわかった。
- 参考スコア(独自算出の注目度): 77.46233234061758
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spatial commonsense, the knowledge about spatial position and relationship
between objects (like the relative size of a lion and a girl, and the position
of a boy relative to a bicycle when cycling), is an important part of
commonsense knowledge. Although pretrained language models (PLMs) succeed in
many NLP tasks, they are shown to be ineffective in spatial commonsense
reasoning. Starting from the observation that images are more likely to exhibit
spatial commonsense than texts, we explore whether models with visual signals
learn more spatial commonsense than text-based PLMs. We propose a spatial
commonsense benchmark that focuses on the relative scales of objects, and the
positional relationship between people and objects under different actions. We
probe PLMs and models with visual signals, including vision-language pretrained
models and image synthesis models, on this benchmark, and find that image
synthesis models are more capable of learning accurate and consistent spatial
knowledge than other models. The spatial knowledge from image synthesis models
also helps in natural language understanding tasks that require spatial
commonsense.
- Abstract(参考訳): 空間コモンセンス(spatial commonsense)とは、空間的な位置と物体(ライオンと女の子の相対的な大きさ、サイクリング時の自転車に対する少年の位置など)の関係に関する知識であり、コモンセンスの知識の重要な部分である。
プレトレーニング言語モデル(PLM)は多くのNLPタスクに成功しているが、空間コモンセンス推論では効果がないことが示されている。
画像がテキストよりも空間コモンセンスを示す可能性が高いという観察から始め、視覚信号を持つモデルがテキストベースのPLMよりも空間コモンセンスを学習するかどうかを探る。
本研究では,物体の相対的スケールと,異なる行動下の人と物体の位置関係に着目した空間共通性ベンチマークを提案する。
本研究では,視覚言語による事前学習モデルや画像合成モデルを含む視覚信号を用いたplmとモデルを調査し,画像合成モデルが他のモデルよりも正確かつ一貫した空間知識を学習できることを示す。
画像合成モデルからの空間知識は、空間共通性を必要とする自然言語理解にも役立つ。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Does Spatial Cognition Emerge in Frontier Models? [56.47912101304053]
本研究では,フロンティアモデルにおける空間認知を体系的に評価するベンチマークSPACEを提案する。
その結果、現代のフロンティアモデルは動物の空間知能に劣っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-09T01:41:49Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Learning Object Placements For Relational Instructions by Hallucinating
Scene Representations [26.897316325189205]
単一入力画像から空間関係の集合に対する画素単位の物体配置確率を推定するための畳み込みニューラルネットワークを提案する。
本手法では,オブジェクトの画素関係確率や3次元モデルに対して,地上の真理データを必要としない。
実世界のデータと人間ロボット実験を用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-01-23T12:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。