論文の概要: Grounding Spatial Relations in Text-Only Language Models
- arxiv url: http://arxiv.org/abs/2403.13666v1
- Date: Wed, 20 Mar 2024 15:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:28:26.794086
- Title: Grounding Spatial Relations in Text-Only Language Models
- Title(参考訳): テキストオンリー言語モデルにおける接地空間関係
- Authors: Gorka Azkune, Ander Salaberria, Eneko Agirre,
- Abstract要約: テキストのみの言語モデル(LM)は,対象の明示的な位置情報が提供される場合,空間的関係を基底として学習することができることを示す。
既製のオブジェクト検出器を用いて画像の言語化を行い,各オブジェクトラベルに位置トークンを付加し,それらの境界ボックスをテキスト形式で表現する。
そこで本研究では,テキストのみのLMがビジョン・アンド・ランゲージモデルより優れ,VSRデータセットの新たな最先端設定を行うことにより,位置が空間関係の接地を可能にすることを示す。
- 参考スコア(独自算出の注目度): 18.500454769402403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper shows that text-only Language Models (LM) can learn to ground spatial relations like "left of" or "below" if they are provided with explicit location information of objects and they are properly trained to leverage those locations. We perform experiments on a verbalized version of the Visual Spatial Reasoning (VSR) dataset, where images are coupled with textual statements which contain real or fake spatial relations between two objects of the image. We verbalize the images using an off-the-shelf object detector, adding location tokens to every object label to represent their bounding boxes in textual form. Given the small size of VSR, we do not observe any improvement when using locations, but pretraining the LM over a synthetic dataset automatically derived by us improves results significantly when using location tokens. We thus show that locations allow LMs to ground spatial relations, with our text-only LMs outperforming Vision-and-Language Models and setting the new state-of-the-art for the VSR dataset. Our analysis show that our text-only LMs can generalize beyond the relations seen in the synthetic dataset to some extent, learning also more useful information than that encoded in the spatial rules we used to create the synthetic dataset itself.
- Abstract(参考訳): 本稿では,テキストのみの言語モデル(LM)が,対象物の明示的な位置情報を提供し,それらの位置を利用するように適切に訓練された場合の「左」や「下」のような空間的関係を学習できることを示す。
視覚空間推論(VSR)データセットの言語化バージョンにおいて、画像の2つのオブジェクト間の実または偽の空間関係を含むテキスト文と、画像が結合された実験を行う。
既製のオブジェクト検出器を用いて画像の言語化を行い,各オブジェクトラベルに位置トークンを付加し,それらの境界ボックスをテキスト形式で表現する。
VSRの小型化を考えると、位置を用いた場合の改善は見つからないが、自動生成した合成データセット上でLMを事前学習することで、位置トークンを用いた場合の精度が向上する。
そこで本研究では,テキストのみのLMがビジョン・アンド・ランゲージモデルより優れ,VSRデータセットの新たな最先端設定を行うことにより,位置が空間関係の接地を可能にすることを示す。
分析の結果,我々のテキストのみのLMは,合成データセットで見られる関係を超えてある程度の一般化が可能であり,合成データセット自体の生成に使用する空間規則よりも有用な情報も学習できることがわかった。
関連論文リスト
- Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning [4.676784872259775]
本稿では,英語の前置詞から得られる空間的関係を理解するための大規模ビデオデータセットを提案する。
データセットには150Kの視覚的描写(ビデオと画像)が含まれており、30の異なる空間的前置詞感覚で構成されている。
また,空間的関係に加えて,事象・時間的相互作用を描写したビデオからなる10の時間的関係にまたがる50Kの視覚的描写も提案する。
論文 参考訳(メタデータ) (2023-09-13T02:35:59Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Language Conditioned Spatial Relation Reasoning for 3D Object Grounding [87.03299519917019]
自然言語に基づく3Dシーンにおけるオブジェクトのローカライズには,空間的関係の理解と推論が必要である。
本稿では,3次元オブジェクトとその空間関係をグラウンド化するための言語条件付きトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-17T16:42:39Z) - Inferring spatial relations from textual descriptions of images [20.035875416464396]
テキストに基づいてシーンを構成する過程における重要なステップである,エンティティ間の空間的関係を推定することに注力する。
我々の研究は、キャプションを与えられたシステムにおいて、どのエンティティを表現すべきか、それぞれの場所とサイズを決定する方法である。
論文 参考訳(メタデータ) (2021-02-01T17:21:13Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。