論文の概要: Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text
Generation
- arxiv url: http://arxiv.org/abs/2210.11109v1
- Date: Thu, 20 Oct 2022 09:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:40:44.271696
- Title: Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text
Generation
- Title(参考訳): 視覚空間記述:空間指向画像対テキスト生成制御
- Authors: Yu Zhao, Jianguo Wei, Zhichao Lin, Yueheng Sun, Meishan Zhang, Min
Zhang
- Abstract要約: 空間意味論に対する画像からテキストへの新たな視点である視覚空間記述(VSD)を提示する。
画像と内部にある2つのオブジェクトが与えられた場合、VSDは2つのオブジェクト間の空間的視点に焦点を当てた1つの記述を作成することを目的としている。
- 参考スコア(独自算出の注目度): 29.6588897383909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-text tasks, such as open-ended image captioning and controllable
image description, have received extensive attention for decades. Here, we
further advance this line of work by presenting Visual Spatial Description
(VSD), a new perspective for image-to-text toward spatial semantics. Given an
image and two objects inside it, VSD aims to produce one description focusing
on the spatial perspective between the two objects. Accordingly, we manually
annotate a dataset to facilitate the investigation of the newly-introduced task
and build several benchmark encoder-decoder models by using VL-BART and VL-T5
as backbones. In addition, we investigate pipeline and joint end-to-end
architectures for incorporating visual spatial relationship classification
(VSRC) information into our model. Finally, we conduct experiments on our
benchmark dataset to evaluate all our models. Results show that our models are
impressive, providing accurate and human-like spatial-oriented text
descriptions. Meanwhile, VSRC has great potential for VSD, and the joint
end-to-end architecture is the better choice for their integration. We make the
dataset and codes public for research purposes.
- Abstract(参考訳): オープンエンド画像キャプションや制御可能な画像記述などの画像からテキストへのタスクは、数十年にわたって広く注目を集めてきた。
ここでは、空間意味論に対する画像からテキストへの新たな視点である視覚空間記述(VSD)を提示することにより、この作業の行をさらに進める。
イメージとその中の2つのオブジェクトが与えられると、vsdは2つのオブジェクト間の空間的視点に焦点を当てた1つの記述を作ることを目標としている。
そこで我々は,VL-BARTとVL-T5をバックボーンとして使用することにより,新たに導入したタスクの調査を容易にするためのデータセットを手動でアノテートし,ベンチマークエンコーダデコーダモデルを構築した。
さらに,視覚空間関係分類(VSRC)情報をモデルに組み込むためのパイプラインおよび共同エンドツーエンドアーキテクチャについて検討した。
最後に、ベンチマークデータセットで実験を行い、すべてのモデルを評価します。
その結果,我々のモデルが印象的であり,正確かつ人間的な空間指向のテキスト記述を提供することがわかった。
一方、VSRCはVSDにとって大きな可能性を秘めている。
研究目的のためにデータセットとコードを公開する。
関連論文リスト
- LLaVA-VSD: Large Language-and-Vision Assistant for Visual Spatial Description [73.8302882854492]
ビジュアル空間記述は、画像内のオブジェクト間の空間的関係を記述するテキストを生成することを目的としている。
LLaVA-VSDは視覚空間関係の分類、記述、オープンな記述のために設計されている。
論文 参考訳(メタデータ) (2024-08-09T09:22:40Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。