論文の概要: Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training
- arxiv url: http://arxiv.org/abs/2104.07500v1
- Date: Thu, 15 Apr 2021 14:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:01:25.501055
- Title: Learning Zero-Shot Multifaceted Visually Grounded Word Embeddingsvia
Multi-Task Training
- Title(参考訳): マルチタスクトレーニングによるゼロショット多面的視覚接地単語埋め込み学習
- Authors: Hassan Shahmohammadi, Hendrik P. A. Lensch, R. Harald Baayen
- Abstract要約: 言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
- 参考スコア(独自算出の注目度): 8.271859911016719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language grounding aims at linking the symbolic representation of language
(e.g., words) into the rich perceptual knowledge of the outside world. The
general approach is to embed both textual and visual information into a common
space -the grounded space-confined by an explicit relationship between both
modalities. We argue that this approach sacrifices the abstract knowledge
obtained from linguistic co-occurrence statistics in the process of acquiring
perceptual information. The focus of this paper is to solve this issue by
implicitly grounding the word embeddings. Rather than learning two mappings
into a joint space, our approach integrates modalities by determining a
reversible grounded mapping between the textual and the grounded space by means
of multi-task learning. Evaluations on intrinsic and extrinsic tasks show that
our embeddings are highly beneficial for both abstract and concrete words. They
are strongly correlated with human judgments and outperform previous works on a
wide range of benchmarks. Our grounded embeddings are publicly available here.
- Abstract(参考訳): 言語基盤は、言語(例えば言葉)の象徴的な表現を外界の豊かな知覚的知識に結びつけることを目的としている。
一般的なアプローチは、テキスト情報と視覚情報の両方を共通の空間に埋め込むことである。
本稿では,言語共起統計から得られる抽象的知識を,知覚情報を取得する過程で犠牲にしていると論じる。
本論文の焦点は,単語埋め込みを暗黙的に解き,この問題を解決することである。
2つのマッピングをジョイント空間に学習するのではなく、マルチタスク学習によってテキスト空間と接地空間の間の可逆的接地写像を決定することによってモダリティを統合する。
内在的および外在的タスクの評価は、我々の埋め込みが抽象語と具体語の両方に非常に有益であることを示している。
これらは人間の判断と強く相関しており、幅広いベンチマークで過去の作品より優れている。
当社の接地埋め込みはここで公開されている。
関連論文リスト
- Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - MCSE: Multimodal Contrastive Learning of Sentence Embeddings [23.630041603311923]
本稿では,視覚情報とテキスト情報の両方をマルチモーダル・コントラッシブ・オブジェクトを通じて活用する文埋め込み学習手法を提案する。
提案手法は,各種データセットと事前学習エンコーダのパフォーマンスを継続的に向上することを示す。
論文 参考訳(メタデータ) (2022-04-22T21:19:24Z) - Aspectuality Across Genre: A Distributional Semantics Approach [25.816944882581343]
英語における動詞の語彙的側面の解釈は、文的含意を認識し、談話レベルの推論を学ぶ上で重要な役割を担っている。
アスペクト型クラス,状態対イベント,およびテクスチャ対テイリック事象の2つの基本次元を分散意味論で効果的にモデル化できることが示される。
論文 参考訳(メタデータ) (2020-10-31T19:37:22Z) - Improving Machine Reading Comprehension with Contextualized Commonsense
Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。
構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。
我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文 参考訳(メタデータ) (2020-09-12T17:20:01Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Incorporating Visual Semantics into Sentence Representations within a
Grounded Space [20.784771968813747]
本研究では,中間表現空間である接地空間を学習することにより,視覚情報をテキスト表現に転送することを提案する。
本モデルは,従来の分類と意味的関連性タスクよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-07T12:26:41Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。