Fugu-MT 論文翻訳(概要): Accurate Word Representations with Universal Visual Guidance

論文の概要: Accurate Word Representations with Universal Visual Guidance

arxiv url: http://arxiv.org/abs/2012.15086v1
Date: Wed, 30 Dec 2020 09:11:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-18 06:08:40.813370
Title: Accurate Word Representations with Universal Visual Guidance
Title（参考訳）: 普遍視覚指導による正確な単語表現
Authors: Zhuosheng Zhang, Haojie Yu, Hai Zhao, Rui Wang, Masao Utiyama
Abstract要約: 本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。 12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
参考スコア（独自算出の注目度）: 55.71425503859685
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Word representation is a fundamental component in neural language understanding models. Recently, pre-trained language models (PrLMs) offer a new performant method of contextualized word representations by leveraging the sequence-level context for modeling. Although the PrLMs generally give more accurate contextualized word representations than non-contextualized models do, they are still subject to a sequence of text contexts without diverse hints for word representation from multimodality. This paper thus proposes a visual representation method to explicitly enhance conventional word embedding with multiple-aspect senses from visual guidance. In detail, we build a small-scale word-image dictionary from a multimodal seed dataset where each word corresponds to diverse related images. The texts and paired images are encoded in parallel, followed by an attention layer to integrate the multimodal representations. We show that the method substantially improves the accuracy of disambiguation. Experiments on 12 natural language understanding and machine translation tasks further verify the effectiveness and the generalization capability of the proposed approach.
Abstract（参考訳）: 単語表現は、ニューラルネットワーク理解モデルの基本コンポーネントである。近年,事前学習型言語モデル (PrLM) は,文脈化語表現の新しいパフォーマンス手法を提供する。 prlmは一般に、非文脈化モデルよりも正確な文脈化単語表現を提供するが、マルチモーダリティから単語表現のヒントが多様でないテキストコンテキストの列にはまだ従わない。そこで本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。詳細は,各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小規模の単語画像辞書を構築する。テキストとペア画像は並列に符号化され、次にマルチモーダル表現を統合するアテンション層が続く。本手法は曖昧さの精度を大幅に向上させる。 12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。

関連論文リスト

Vision as a Dialect: Unifying Visual Understanding and Generation via Text-Aligned Representations [33.11867433769496]
本稿では,共有意味表現における視覚的理解と生成を統一する枠組みを提案する。中心となるのはText-Aligned Tokenizer (TA-Tok) で、これは大きな言語モデル(LLM)の語彙から投影されたテキスト整列コードブックを用いて画像を個別のトークンに変換する。ベンチマークによる実験では、Tarは既存のマルチモーダルLLMメソッドと一致し、より高速な収束とトレーニング効率の向上を実現している。
論文参考訳（メタデータ） (2025-06-23T17:59:14Z)
EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [31.31018600797305]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文参考訳（メタデータ） (2025-06-03T16:44:15Z)
A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues [23.743431157431893]
共同文と視覚的手がかりの条件推論は多モーダル推論タスクである。我々はModCRというマルチモーダルコンテキスト推論手法を提案する。 2つの対応するデータセットに対して広範囲な実験を行い、実験結果により性能が大幅に向上した。
論文参考訳（メタデータ） (2023-05-08T08:05:40Z)
Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文参考訳（メタデータ） (2023-01-09T13:54:11Z)
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-09T06:31:15Z)
Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文参考訳（メタデータ） (2022-05-20T13:41:12Z)
Modeling Semantic Composition with Syntactic Hypergraph for Video Question Answering [14.033438649614219]
ビデオ質問応答の鍵となる課題は、テキストの概念と対応する視覚オブジェクト間の相互意味的アライメントを実現する方法である。そこで本研究では,まず,既製のツールを用いて,各質問に対する構文依存ツリーを構築することを提案する。抽出された構成に基づいて、単語をノードとして、合成をハイパーエッジとして見ることで、ハイパーグラフをさらに構築する。
論文参考訳（メタデータ） (2022-05-13T09:28:13Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)
Probing Contextual Language Models for Common Ground with Visual Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文参考訳（メタデータ） (2020-05-01T21:28:28Z)
BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文参考訳（メタデータ） (2020-04-29T04:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。