論文の概要: Accurate Word Representations with Universal Visual Guidance
- arxiv url: http://arxiv.org/abs/2012.15086v1
- Date: Wed, 30 Dec 2020 09:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 06:08:40.813370
- Title: Accurate Word Representations with Universal Visual Guidance
- Title(参考訳): 普遍視覚指導による正確な単語表現
- Authors: Zhuosheng Zhang, Haojie Yu, Hai Zhao, Rui Wang, Masao Utiyama
- Abstract要約: 本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
- 参考スコア(独自算出の注目度): 55.71425503859685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word representation is a fundamental component in neural language
understanding models. Recently, pre-trained language models (PrLMs) offer a new
performant method of contextualized word representations by leveraging the
sequence-level context for modeling. Although the PrLMs generally give more
accurate contextualized word representations than non-contextualized models do,
they are still subject to a sequence of text contexts without diverse hints for
word representation from multimodality. This paper thus proposes a visual
representation method to explicitly enhance conventional word embedding with
multiple-aspect senses from visual guidance. In detail, we build a small-scale
word-image dictionary from a multimodal seed dataset where each word
corresponds to diverse related images. The texts and paired images are encoded
in parallel, followed by an attention layer to integrate the multimodal
representations. We show that the method substantially improves the accuracy of
disambiguation. Experiments on 12 natural language understanding and machine
translation tasks further verify the effectiveness and the generalization
capability of the proposed approach.
- Abstract(参考訳): 単語表現は、ニューラルネットワーク理解モデルの基本コンポーネントである。
近年,事前学習型言語モデル (PrLM) は,文脈化語表現の新しいパフォーマンス手法を提供する。
prlmは一般に、非文脈化モデルよりも正確な文脈化単語表現を提供するが、マルチモーダリティから単語表現のヒントが多様でないテキストコンテキストの列にはまだ従わない。
そこで本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
詳細は,各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小規模の単語画像辞書を構築する。
テキストとペア画像は並列に符号化され、次にマルチモーダル表現を統合するアテンション層が続く。
本手法は曖昧さの精度を大幅に向上させる。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
関連論文リスト
- On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Modeling Semantic Composition with Syntactic Hypergraph for Video
Question Answering [14.033438649614219]
ビデオ質問応答の鍵となる課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。
そこで本研究では,まず,既製のツールを用いて,各質問に対する構文依存ツリーを構築することを提案する。
抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。
論文 参考訳(メタデータ) (2022-05-13T09:28:13Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Robust Open-Vocabulary Translation from Visual Text Representations [15.646399508495133]
機械翻訳モデルには、離散的および一般に「オープン語彙」サブワードセグメンテーション技術がある。
このアプローチは、一貫性と正しい語彙に依存している。
人間の言語処理を動機に,視覚的テキスト表現の利用を提案する。
論文 参考訳(メタデータ) (2021-04-16T16:37:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。