論文の概要: Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents
- arxiv url: http://arxiv.org/abs/2010.16363v1
- Date: Fri, 30 Oct 2020 16:39:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 16:00:05.101689
- Title: Domain-Specific Lexical Grounding in Noisy Visual-Textual Documents
- Title(参考訳): ノイズのある視覚文書におけるドメイン固有語彙基底化
- Authors: Gregory Yauney, Jack Hessel, David Mimno
- Abstract要約: 画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。
本稿では,オブジェクト検出や画像タグ付けのベースラインを越えた精度の向上とリコールを実現する,単純なクラスタリングに基づくクラスタリング手法を提案する。
提案手法は, 単語の局所的文脈意味に対して特に有効である。例えば, 不動産データセットのカウンタートップと, ウィキペディアデータセットの岩の多いランドスケープとを関連付ける。
- 参考スコア(独自算出の注目度): 17.672677325827454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images can give us insights into the contextual meanings of words, but
current image-text grounding approaches require detailed annotations. Such
granular annotation is rare, expensive, and unavailable in most domain-specific
contexts. In contrast, unlabeled multi-image, multi-sentence documents are
abundant. Can lexical grounding be learned from such documents, even though
they have significant lexical and visual overlap? Working with a case study
dataset of real estate listings, we demonstrate the challenge of distinguishing
highly correlated grounded terms, such as "kitchen" and "bedroom", and
introduce metrics to assess this document similarity. We present a simple
unsupervised clustering-based method that increases precision and recall beyond
object detection and image tagging baselines when evaluated on labeled subsets
of the dataset. The proposed method is particularly effective for local
contextual meanings of a word, for example associating "granite" with
countertops in the real estate dataset and with rocky landscapes in a Wikipedia
dataset.
- Abstract(参考訳): 画像は単語の文脈的意味に関する洞察を与えることができるが、現在の画像テキストの基盤化アプローチでは詳細なアノテーションが必要である。
このような粒度のアノテーションは稀で、高価であり、ほとんどのドメイン固有のコンテキストでは利用できない。
対照的に、ラベルのないマルチイメージのマルチセンテンス文書は豊富である。
語彙的・視覚的重複が顕著であっても,このような文書から語彙的接地を学べるだろうか?
不動産リスティングのケーススタディデータセットを用いて,「キッチン」や「ベッドルーム」といった高相関な用語を識別する上での課題を明らかにし,この文書の類似性を評価する指標を導入する。
本稿では,データセットのラベル付きサブセットで評価した場合,オブジェクト検出および画像タグ付けベースラインを越えた精度の向上とリコールを行う,単純なクラスタリングに基づくクラスタリング手法を提案する。
提案手法は,例えば"granite"と不動産データセットのカウンタートップと,wikipediaデータセットのロッキーランドスケープとを関連付けるなど,単語の局所的文脈的意味に特に有効である。
関連論文リスト
- Are we describing the same sound? An analysis of word embedding spaces
of expressive piano performance [4.867952721052875]
表現力のあるピアノ演奏の特徴の領域における不確実性について検討する。
5つの埋め込みモデルとその類似性構造を基礎的真理に対応するために検証する。
埋め込みモデルの品質は、このタスクに対して大きなばらつきを示している。
論文 参考訳(メタデータ) (2023-12-31T12:20:03Z) - TagAlign: Improving Vision-Language Alignment with Multi-Tag Classification [59.779532652634295]
画像とテキストのペア以外の追加データフォーマットを必要とせずに、画像とテキストの特徴の整合性を向上するための、恥ずかしいほど単純なアプローチを提案する。
画像中に存在する可能性が極めて高い記述からオブジェクトや属性を解析する。
実験は、既存の代替手段よりも平均5.2%のフレームワークの改善を裏付けるものです。
論文 参考訳(メタデータ) (2023-12-21T18:59:06Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Revising Image-Text Retrieval via Multi-Modal Entailment [25.988058843564335]
多対多のマッチング現象は、広く使われている画像テキスト検索データセットで非常によく見られる。
文が画像と関連キャプションによって関連付けられているかどうかを判定するマルチモーダル・エンターメント分類器を提案する。
論文 参考訳(メタデータ) (2022-08-22T07:58:54Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Is An Image Worth Five Sentences? A New Look into Semantics for
Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。
画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文 参考訳(メタデータ) (2021-10-06T09:54:28Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - PhraseCut: Language-based Image Segmentation in the Wild [62.643450401286]
自然言語のフレーズを与えられた画像領域を分割する問題について考察する。
私たちのデータセットは、Visual Genomeデータセットの上に収集されます。
我々の実験は、我々のデータセットにおける概念のスケールと多様性が、既存の最先端技術に重大な課題をもたらすことを示している。
論文 参考訳(メタデータ) (2020-08-03T20:58:53Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。