論文の概要: Visual Grounding of Inter-lingual Word-Embeddings
- arxiv url: http://arxiv.org/abs/2209.03714v1
- Date: Thu, 8 Sep 2022 11:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 12:54:36.129321
- Title: Visual Grounding of Inter-lingual Word-Embeddings
- Title(参考訳): 言語間単語埋め込みの視覚的接地
- Authors: Wafaa Mohammed, Hassan Shahmohammadi, Hendrik P. A. Lensch, R. Harald
Baayen
- Abstract要約: 本研究では,単語埋め込みの言語間視覚的基盤について検討する。
実験では、英語、アラビア語、ドイツ語の3つの言語に焦点を当てています。
実験により,言語間知識が類似言語における接地埋め込みの性能を向上させることが示唆された。
- 参考スコア(独自算出の注目度): 6.136487946258519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual grounding of Language aims at enriching textual representations of
language with multiple sources of visual knowledge such as images and videos.
Although visual grounding is an area of intense research, inter-lingual aspects
of visual grounding have not received much attention. The present study
investigates the inter-lingual visual grounding of word embeddings. We propose
an implicit alignment technique between the two spaces of vision and language
in which inter-lingual textual information interacts in order to enrich
pre-trained textual word embeddings. We focus on three languages in our
experiments, namely, English, Arabic, and German. We obtained visually grounded
vector representations for these languages and studied whether visual grounding
on one or multiple languages improved the performance of embeddings on word
similarity and categorization benchmarks. Our experiments suggest that
inter-lingual knowledge improves the performance of grounded embeddings in
similar languages such as German and English. However, inter-lingual grounding
of German or English with Arabic led to a slight degradation in performance on
word similarity benchmarks. On the other hand, we observed an opposite trend on
categorization benchmarks where Arabic had the most improvement on English. In
the discussion section, several reasons for those findings are laid out. We
hope that our experiments provide a baseline for further research on
inter-lingual visual grounding.
- Abstract(参考訳): 言語の視覚的な基礎化は、画像やビデオなどの視覚知識の複数のソースによる言語のテキスト表現の強化を目標としている。
視覚的接地は激しい研究の領域であるが、視覚的接地における言語的側面はあまり注目されていない。
本研究では,単語埋め込みの言語間視覚接地について検討する。
そこで本研究では,言語間情報が相互に相互作用する2つの視覚空間と言語間の暗黙的アライメント手法を提案する。
実験では英語、アラビア語、ドイツ語の3つの言語に注目した。
これらの言語の視覚的接地ベクトル表現を取得し,単語の類似度と分類ベンチマークによる埋め込み性能の向上について検討した。
本研究は,言語間知識がドイツ語や英語などの類似言語における接地埋め込みの性能を向上させることを示唆する。
しかし、ドイツ語または英語のアラビア語による言語間接地は、単語類似度ベンチマークのパフォーマンスをわずかに低下させた。
一方,アラビア語が英語に対して最も改善したカテゴリー化ベンチマークでは,逆の傾向がみられた。
議論の節では、これらの発見のいくつかの理由が述べられている。
我々の実験が言語間視覚接地に関するさらなる研究のベースラインになることを願っている。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは28の言語で感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Computer Vision Datasets and Models Exhibit Cultural and Linguistic
Diversity in Perception [28.716435050743957]
異なる文化的背景を持つ人々が、同じ視覚刺激を視る場合でも、いかに異なる概念を観察するかを考察する。
同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。
私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に注目しています。
論文 参考訳(メタデータ) (2023-10-22T16:51:42Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Relationship of the language distance to English ability of a country [0.0]
本稿では,言語間の意味的相違を測る新しい手法を提案する。
提案するセマンティック言語距離の有効性を実証的に検討する。
実験の結果, 言語距離は, 国の平均英語能力に負の影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2022-11-15T02:40:00Z) - Like a bilingual baby: The advantage of visually grounding a bilingual
language model [0.0]
我々は、MS-COCO-ESから英語とスペイン語の画像やキャプションに基づいてLSTM言語モデルを訓練する。
視覚的基盤は、言語内および言語間のセマンティックな類似性に対するモデルの理解を改善し、パープレキシティを改善する。
本研究は,視覚的基盤言語モデルの利点を裏付ける追加の証拠を提供し,多言語話者と知覚的基盤を持つ多言語データセットからのより自然主義的な言語データの必要性を指摘する。
論文 参考訳(メタデータ) (2022-10-11T14:43:26Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Visual Grounding in Video for Unsupervised Word Translation [91.47607488740647]
我々は、言語間の教師なし単語マッピングを改善するために、視覚的接地を用いる。
ネイティブ言語でナレーションされた無人の教育ビデオから埋め込みを学習する。
これらの手法を英語からフランス語、韓国語、日本語への翻訳に適用する。
論文 参考訳(メタデータ) (2020-03-11T02:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。