論文の概要: PhraseCut: Language-based Image Segmentation in the Wild
- arxiv url: http://arxiv.org/abs/2008.01187v1
- Date: Mon, 3 Aug 2020 20:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 06:49:54.219340
- Title: PhraseCut: Language-based Image Segmentation in the Wild
- Title(参考訳): フレーズカット:野生の言語に基づくイメージセグメンテーション
- Authors: Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji
- Abstract要約: 自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
- 参考スコア(独自算出の注目度): 62.643450401286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of segmenting image regions given a natural language
phrase, and study it on a novel dataset of 77,262 images and 345,486
phrase-region pairs. Our dataset is collected on top of the Visual Genome
dataset and uses the existing annotations to generate a challenging set of
referring phrases for which the corresponding regions are manually annotated.
Phrases in our dataset correspond to multiple regions and describe a large
number of object and stuff categories as well as their attributes such as
color, shape, parts, and relationships with other entities in the image. Our
experiments show that the scale and diversity of concepts in our dataset poses
significant challenges to the existing state-of-the-art. We systematically
handle the long-tail nature of these concepts and present a modular approach to
combine category, attribute, and relationship cues that outperforms existing
approaches.
- Abstract(参考訳): 自然言語のフレーズを与えられた画像領域を分割する問題を考察し,77,262の画像と345,486のフレーズ領域ペアからなる新しいデータセットを用いて検討する。
我々のデータセットはVisual Genomeデータセット上に収集され、既存のアノテーションを使用して、対応する領域が手動で注釈付けされた参照フレーズの挑戦的なセットを生成する。
データセット内のフレーズは、複数の領域に対応し、多数のオブジェクトや物のカテゴリ、色、形、部品、画像内の他のエンティティとの関係などの属性を記述します。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端に重大な課題をもたらすことを示している。
これらの概念のロングテールな性質を体系的に処理し、既存のアプローチを上回るカテゴリ、属性、関係を組み合わせるためのモジュラーアプローチを提示します。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z) - Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents [17.672677325827454]
画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。
本稿では,オブジェクト検出や画像タグ付けのベースラインを越えた精度の向上とリコールを実現する,単純なクラスタリングに基づくクラスタリング手法を提案する。
提案手法は, 単語の局所的文脈意味に対して特に有効である。例えば, 不動産データセットのカウンタートップと, ウィキペディアデータセットの岩の多いランドスケープとを関連付ける。
論文 参考訳(メタデータ) (2020-10-30T16:39:49Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - MAGNet: Multi-Region Attention-Assisted Grounding of Natural Language
Queries at Phrase Level [6.47137925955334]
画像レベルの視覚・テキスト融合に空間的注意ネットワークを活用することを提案する。
In-network Region Proposal Network (RPN) でリージョン提案を洗練し、フレーズクエリに対して単一または複数リージョンを検出する。
このような参照式データセットであるReferItでは、マルチリージョンアテンション支援基盤ネットワーク(MAGNet)が最先端技術よりも12%以上の改善を実現しています。
論文 参考訳(メタデータ) (2020-06-06T04:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。