論文の概要: Efficient Multi-Modal Embeddings from Structured Data
- arxiv url: http://arxiv.org/abs/2110.02577v1
- Date: Wed, 6 Oct 2021 08:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 02:41:32.270160
- Title: Efficient Multi-Modal Embeddings from Structured Data
- Title(参考訳): 構造化データからの効率的なマルチモーダル埋め込み
- Authors: Anita L. Ver\H{o}, Ann Copestake
- Abstract要約: マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Multi-modal word semantics aims to enhance embeddings with perceptual input,
assuming that human meaning representation is grounded in sensory experience.
Most research focuses on evaluation involving direct visual input, however,
visual grounding can contribute to linguistic applications as well. Another
motivation for this paper is the growing need for more interpretable models and
for evaluating model efficiency regarding size and performance. This work
explores the impact of visual information for semantics when the evaluation
involves no direct visual input, specifically semantic similarity and
relatedness. We investigate a new embedding type in-between linguistic and
visual modalities, based on the structured annotations of Visual Genome. We
compare uni- and multi-modal models including structured, linguistic and image
based representations. We measure the efficiency of each model with regard to
data and model size, modality / data distribution and information gain. The
analysis includes an interpretation of embedding structures. We found that this
new embedding conveys complementary information for text based embeddings. It
achieves comparable performance in an economic way, using orders of magnitude
less resources than visual models.
- Abstract(参考訳): マルチモーダルな単語意味論は、人間の意味表現が感覚経験に根ざしていると仮定して、知覚入力による埋め込みを強化することを目的としている。
ほとんどの研究は直接視覚入力による評価に焦点を当てているが、視覚の接地は言語応用にも貢献できる。
この論文のもう一つの動機は、より解釈可能なモデルの必要性を高め、サイズと性能に関するモデルの効率を評価することである。
本研究は,直接的な視覚入力,特に意味的類似性と関連性を含まない場合の意味論に対する視覚情報の影響を考察する。
視覚ゲノムの構造的アノテーションに基づく言語的・視覚的モダリティの組込み型について検討する。
構造化,言語,画像に基づく表現を含むユニモーダルモデルとマルチモーダルモデルを比較した。
データとモデルサイズ、モダリティ/データ分布および情報ゲインに関して、各モデルの効率を測定する。
解析には埋め込み構造の解釈が含まれる。
この新たな埋め込みは、テキストベースの埋め込みの補完情報を伝達することがわかった。
視覚モデルよりもはるかに少ないリソースで、経済的に同等のパフォーマンスを達成する。
関連論文リスト
- Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Enhancing Argument Structure Extraction with Efficient Leverage of
Contextual Information [79.06082391992545]
本稿では,コンテキスト情報を完全に活用する効率的なコンテキスト認識モデル(ECASE)を提案する。
文脈情報や議論情報を集約するために,シーケンスアテンションモジュールと距離重み付き類似度損失を導入する。
各種ドメインの5つのデータセットに対する実験により,我々のモデルが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-10-08T08:47:10Z) - Topics in the Haystack: Extracting and Evaluating Topics beyond
Coherence [0.0]
本稿では,文と文書のテーマを深く理解する手法を提案する。
これにより、一般的な単語やネオロジズムを含む潜在トピックを検出することができる。
本稿では, 侵入者の単語の人間識別と相関係数を示し, 単語侵入作業において, ほぼ人間レベルの結果を得る。
論文 参考訳(メタデータ) (2023-03-30T12:24:25Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Prototypical Representation Learning for Relation Extraction [56.501332067073065]
本論文では, 遠隔ラベルデータから予測可能, 解釈可能, 堅牢な関係表現を学習することを目的とする。
文脈情報から各関係のプロトタイプを学習し,関係の本質的意味を最善に探求する。
いくつかの関係学習タスクの結果,本モデルが従来の関係モデルを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-03-22T08:11:43Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。