論文の概要: Web Image Context Extraction with Graph Neural Networks and Sentence
Embeddings on the DOM tree
- arxiv url: http://arxiv.org/abs/2108.11629v1
- Date: Thu, 26 Aug 2021 07:49:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-27 13:48:37.662777
- Title: Web Image Context Extraction with Graph Neural Networks and Sentence
Embeddings on the DOM tree
- Title(参考訳): グラフニューラルネットワークを用いたWeb画像文脈抽出とDOM木への文埋め込み
- Authors: Chen Dang (QR), Hicham Randrianarivo (QR), Rapha\"el
Fournier-S'Niehotta (CNAM, CEDRIC - VERTIGO), Nicolas Audebert (CNAM, CEDRIC
- VERTIGO)
- Abstract要約: Web画像コンテキスト抽出(WICE)は、画像を記述するテキスト情報を取得する。
グラフニューラルネットワーク(GNN)と自然言語処理モデルを組み合わせた新しいWICE手法を提案する。
提案手法はHTMLデータのみを用いて大規模WICE問題に対処するための有望な結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Web Image Context Extraction (WICE) consists in obtaining the textual
information describing an image using the content of the surrounding webpage. A
common preprocessing step before performing WICE is to render the content of
the webpage. When done at a large scale (e.g., for search engine indexation),
it may become very computationally costly (up to several seconds per page). To
avoid this cost, we introduce a novel WICE approach that combines Graph Neural
Networks (GNNs) and Natural Language Processing models. Our method relies on a
graph model containing both node types and text as features. The model is fed
through several blocks of GNNs to extract the textual context. Since no labeled
WICE dataset with ground truth exists, we train and evaluate the GNNs on a
proxy task that consists in finding the semantically closest text to the image
caption. We then interpret importance weights to find the most relevant text
nodes and define them as the image context. Thanks to GNNs, our model is able
to encode both structural and semantic information from the webpage. We show
that our approach gives promising results to help address the large-scale WICE
problem using only HTML data.
- Abstract(参考訳): Web画像コンテキスト抽出(WICE)は、周辺Webページの内容を用いて画像を記述するテキスト情報を取得する。
WICEを実行する前の一般的な前処理ステップは、Webページの内容をレンダリングすることだ。
大規模な処理(検索エンジンのインデックス化など)では、計算コストが非常に高く(ページあたり数秒まで)なる可能性がある。
このコストを回避するために、グラフニューラルネットワーク(GNN)と自然言語処理モデルを組み合わせた新しいWICEアプローチを導入する。
提案手法は,ノードタイプとテキストを特徴として含むグラフモデルに依存する。
モデルは、テキストコンテキストを抽出するために、GNNのいくつかのブロックを介して供給される。
基底真理を持つラベル付きWICEデータセットは存在しないので、画像キャプションに最も近い意味的テキストを見つけるためのプロキシタスクで、GNNを訓練し、評価する。
次に、最も関連性の高いテキストノードを見つけるために重要度を解釈し、それらを画像コンテキストとして定義する。
GNNのおかげで、我々のモデルはWebページから構造情報と意味情報をエンコードできる。
提案手法はHTMLデータのみを用いて大規模WICE問題に対処するための有望な結果をもたらすことを示す。
関連論文リスト
- BATINet: Background-Aware Text to Image Synthesis and Manipulation
Network [12.924990882126105]
生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。
本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案する。
我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-08-11T03:22:33Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Towards Zero-shot Relation Extraction in Web Mining: A Multimodal
Approach with Relative XML Path [28.898240725099782]
ウェブマイニングにおけるゼロショット関係抽出のための新しい手法であるReXMinerを提案する。
ReXMinerはDocument Object Model(DOM)ツリーの最も短い相対パスをエンコードする。
また、異なるWebページ間で同じテキストノードの発生をカウントすることで、各テキストノードの人気も反映している。
論文 参考訳(メタデータ) (2023-05-23T08:16:52Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - GraghVQA: Language-Guided Graph Neural Networks for Graph-based Visual
Question Answering [4.673063715963991]
Scene Graphはオブジェクトをエッジとしてペアワイズリレーションを介して接続されたノードとしてエンコードします。
自然言語質問の翻訳と実行を行う言語誘導グラフニューラルネットワークフレームワークであるGraphVQAを提案する。
GQAデータセットに対する実験により、GraphVQAは最先端の精度を大きなマージンで上回ることを示した。
論文 参考訳(メタデータ) (2021-04-20T23:54:41Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z) - Iterative Context-Aware Graph Inference for Visual Dialog [126.016187323249]
本稿では,新しいコンテキスト認識グラフ(CAG)ニューラルネットワークを提案する。
グラフの各ノードは、オブジェクトベース(視覚)と履歴関連(テキスト)コンテキスト表現の両方を含む、共同意味機能に対応している。
論文 参考訳(メタデータ) (2020-04-05T13:09:37Z) - Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene
Text [93.08109196909763]
我々は,新しいVQAアプローチであるMulti-Modal Graph Neural Network (MM-GNN)を提案する。
これはまず3つの部分グラフからなるグラフとして表現され、それぞれ視覚的、意味的、数値的な様相を描いている。
次に3つのアグリゲータを導入し、あるグラフから別のグラフへのメッセージ転送を誘導し、様々なモードでコンテキストを利用する。
論文 参考訳(メタデータ) (2020-03-31T05:56:59Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。