論文の概要: Semantic sentence similarity: size does not always matter
- arxiv url: http://arxiv.org/abs/2106.08648v1
- Date: Wed, 16 Jun 2021 09:22:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:31:01.865931
- Title: Semantic sentence similarity: size does not always matter
- Title(参考訳): 意味的文類似性:サイズは必ずしも重要ではない
- Authors: Danny Merkx, Stefan L. Frank, Mirjam Ernestus
- Abstract要約: 我々は、よく知られた意味的テキスト類似性データベースの合成および自然な音声バージョンを作成している。
我々のVGSモデルは人間の意味的類似性とよく相関する埋め込みを生成する。
小さな画像キャプチャーデータベースでトレーニングされたモデルは、はるかに大きなデータベースでトレーニングされた2つのモデルより優れている。
- 参考スコア(独自算出の注目度): 12.001264420453923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study addresses the question whether visually grounded speech
recognition (VGS) models learn to capture sentence semantics without access to
any prior linguistic knowledge. We produce synthetic and natural spoken
versions of a well known semantic textual similarity database and show that our
VGS model produces embeddings that correlate well with human semantic
similarity judgements. Our results show that a model trained on a small
image-caption database outperforms two models trained on much larger databases,
indicating that database size is not all that matters. We also investigate the
importance of having multiple captions per image and find that this is indeed
helpful even if the total number of images is lower, suggesting that
paraphrasing is a valuable learning signal. While the general trend in the
field is to create ever larger datasets to train models on, our findings
indicate other characteristics of the database can just as important important.
- Abstract(参考訳): 本研究では,視覚的基盤音声認識(VGS)モデルが,事前の言語知識にアクセスせずに文の意味を捉えることができるかどうかを問う。
我々は、よく知られた意味的テキスト類似性データベースの合成および自然な音声バージョンを作成し、VGSモデルが人間の意味的類似性判定とよく相関する埋め込みを生成することを示す。
以上の結果から,小型画像キャプチャデータベースでトレーニングしたモデルは,より大きなデータベースでトレーニングした2つのモデルより優れており,データベースのサイズが重要でないことを示す。
また,画像毎に字幕を複数持つことの重要性について検討し,画像の総数が少ない場合でも,これが本当に有用であることを見出し,パラフレージングが貴重な学習信号であることを示す。
この分野の一般的なトレンドは、モデルをトレーニングするために、さらに大きなデータセットを作成することですが、データベースの他の特性も同様に重要であることが分かりました。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language
Models [3.86170450233149]
画像とテキストとのマッチングを訓練した大規模視覚言語モデル(VLM)では,空間的関係の微妙な理解が欠如していることが示されている。
本稿では,空間的節の認識とランク付けのための,よりきめ細かな構成的アプローチを提案する。
論文 参考訳(メタデータ) (2023-08-18T18:58:54Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Visual Speech Recognition for Multiple Languages in the Wild [64.52593130370757]
より優れたVSRモデルを設計することが、より大きなトレーニングセットを使用する上でも同様に重要であることを示す。
VSRモデルに予測に基づく補助タスクを追加することを提案する。
このようなモデルは、異なる言語で動作し、公開データセット上でトレーニングされたこれまでのすべてのメソッドを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2022-02-26T07:21:00Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。