論文の概要: Inferring spatial relations from textual descriptions of images
- arxiv url: http://arxiv.org/abs/2102.00997v1
- Date: Mon, 1 Feb 2021 17:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:41:09.189399
- Title: Inferring spatial relations from textual descriptions of images
- Title(参考訳): 画像のテクスト記述から空間関係を推測する
- Authors: Aitzol Elu, Gorka Azkune, Oier Lopez de Lacalle, Ignacio
Arganda-Carreras, Aitor Soroa, Eneko Agirre
- Abstract要約: テキストに基づいてシーンを構成する過程における重要なステップである,エンティティ間の空間的関係を推定することに注力する。
我々の研究は、キャプションを与えられたシステムにおいて、どのエンティティを表現すべきか、それぞれの場所とサイズを決定する方法である。
- 参考スコア(独自算出の注目度): 20.035875416464396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating an image from its textual description requires both a certain
level of language understanding and common sense knowledge about the spatial
relations of the physical entities being described. In this work, we focus on
inferring the spatial relation between entities, a key step in the process of
composing scenes based on text. More specifically, given a caption containing a
mention to a subject and the location and size of the bounding box of that
subject, our goal is to predict the location and size of an object mentioned in
the caption. Previous work did not use the caption text information, but a
manually provided relation holding between the subject and the object. In fact,
the used evaluation datasets contain manually annotated ontological triplets
but no captions, making the exercise unrealistic: a manual step was required;
and systems did not leverage the richer information in captions. Here we
present a system that uses the full caption, and Relations in Captions
(REC-COCO), a dataset derived from MS-COCO which allows to evaluate spatial
relation inference from captions directly. Our experiments show that: (1) it is
possible to infer the size and location of an object with respect to a given
subject directly from the caption; (2) the use of full text allows to place the
object better than using a manually annotated relation. Our work paves the way
for systems that, given a caption, decide which entities need to be depicted
and their respective location and sizes, in order to then generate the final
image.
- Abstract(参考訳): テキスト記述から画像を生成するには、あるレベルの言語理解と、記述される物理的実体の空間的関係に関する常識知識が必要である。
本研究では,テキストに基づくシーン構成における重要なステップであるエンティティ間の空間的関係を推測することに焦点を当てた。
具体的には、対象への言及と対象の境界ボックスの位置とサイズを含むキャプションを考えると、キャプションで言及された対象の位置と大きさを予測することが私たちの目標です。
以前の作業ではキャプションのテキスト情報ではなく、対象と対象の間の手動で提供された関係保持を使用していました。
実際に使用される評価データセットには、手動で注釈付けされたオントロジ三脚が含まれているが、キャプションがないため、運動は非現実的で、手動ステップが必要であり、システムはキャプション内のリッチな情報を活用できなかった。
本稿では, キャプションの全文と, キャプションからの空間的関係推論を直接評価できるMS-COCOから派生したデータセットであるRelations in Captions (REC-COCO) を用いたシステムを提案する。
実験の結果,(1)字幕から直接対象物の大きさや位置を推測することが可能であり,(2)完全テキストを用いることで,手作業による注釈付き関係を用いた場合よりも,対象物の位置を推定できることがわかった。
我々の研究は、キャプションを付与したシステムにおいて、最終的な画像を生成するために、どのエンティティとそれぞれの場所とサイズを表現する必要があるかを決定する方法である。
関連論文リスト
- VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Top-Down Framework for Weakly-supervised Grounded Image Captioning [19.00510117145054]
弱教師付き接地画像キャプションは、バウンディングボックスの監督を使わずに、入力画像中のキャプションとグラウンド(局所化)予測対象語を生成することを目的としている。
本稿では,RGB画像を直接入力として,トップダウン画像レベルでのキャプションとグラウンド実行を行う一段弱教師付き接地キャプタを提案する。
論文 参考訳(メタデータ) (2023-06-13T01:42:18Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Telling the What while Pointing the Where: Fine-grained Mouse Trace and
Language Supervision for Improved Image Retrieval [60.24860627782486]
きめ細かい画像検索は、しばしば、探しているコンテンツがどこにあるかを表現する能力を必要とする。
本稿では,ユーザが音声自然言語(“What”)とマウスが空のキャンバス(“where”)にトレースした画像を同時に記述する画像検索装置について述べる。
我々のモデルは、この空間的ガイダンスを考慮に入れ、テキストのみの等価システムと比較して、より正確な検索結果を提供する。
論文 参考訳(メタデータ) (2021-02-09T17:54:34Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。