論文の概要: The mutual exclusivity bias of bilingual visually grounded speech models
- arxiv url: http://arxiv.org/abs/2506.04037v1
- Date: Wed, 04 Jun 2025 14:59:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.399244
- Title: The mutual exclusivity bias of bilingual visually grounded speech models
- Title(参考訳): バイリンガル・ビジュアルグラウンド音声モデルの相互排他バイアス
- Authors: Dan Oneata, Leanne Nortje, Yevgen Matusevych, Herman Kamper,
- Abstract要約: 相互排他性(英: Mutual exclusivity、ME)とは、新しい単語が慣れ親しんだものではなく、新しいものと関連づけられる戦略である。
近年の研究では、ペア画像を用いた英語音声で訓練された視覚的接地音声(VGS)モデルにおいて、MEバイアスが発見された。
我々は、英語、フランス語、オランダ語の組み合わせに基づいて訓練されたバイリンガルVGSモデルを用いて、このパターンを探索する。
- 参考スコア(独自算出の注目度): 22.97008687596735
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Mutual exclusivity (ME) is a strategy where a novel word is associated with a novel object rather than a familiar one, facilitating language learning in children. Recent work has found an ME bias in a visually grounded speech (VGS) model trained on English speech with paired images. But ME has also been studied in bilingual children, who may employ it less due to cross-lingual ambiguity. We explore this pattern computationally using bilingual VGS models trained on combinations of English, French, and Dutch. We find that bilingual models generally exhibit a weaker ME bias than monolingual models, though exceptions exist. Analyses show that the combined visual embeddings of bilingual models have a smaller variance for familiar data, partly explaining the increase in confusion between novel and familiar concepts. We also provide new insights into why the ME bias exists in VGS models in the first place. Code and data: https://github.com/danoneata/me-vgs
- Abstract(参考訳): 相互排他性(英: Mutual exclusivity、ME)とは、新しい単語が親しみやすいものよりも新しいものと関連付けられ、子どもの言語学習を促進する戦略である。
近年の研究では、ペア画像を用いた英語音声で訓練された視覚的接地音声(VGS)モデルにおいて、MEバイアスが発見された。
しかし、MEはバイリンガルの子供でも研究されており、言語間のあいまいさのため採用が少なくなる可能性がある。
我々は、英語、フランス語、オランダ語の組み合わせに基づいて訓練されたバイリンガルVGSモデルを用いて、このパターンを計算的に探索する。
バイリンガルモデルは一般に単言語モデルよりも弱いMEバイアスを示すが、例外は存在する。
分析により、バイリンガルモデルの視覚的埋め込みは、慣れ親しんだデータに対してより小さなばらつきを持ち、部分的には、新しい概念となじみのある概念の混同の増加を説明する。
また、そもそもVGSモデルにMEバイアスが存在する理由について、新たな知見を提供する。
コードとデータ:https://github.com/danoneata/me-vgs
関連論文リスト
- Visually Grounded Speech Models for Low-resource Languages and Cognitive Modelling [4.340338299803563]
画像を用いた音声中のキーワードの検出とローカライズを行うために,視覚的に誘導されるキーワードローカライゼーションというタスクを導入する。
本稿では,Yorubaのような低リソース言語に対する数ショット学習シナリオにおいて,VGSモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-09-03T17:59:50Z) - Why do LLaVA Vision-Language Models Reply to Images in English? [15.727116803057633]
一般的なマルチモーダル視覚言語モデル(VLM)で発生する驚くべき多言語バイアスを明らかにする。
LLaVAスタイルのVLMにクエリに画像を含めると、クエリの言語に関係なく、そのモデルが英語の応答を返す可能性が著しく高くなる。
論文 参考訳(メタデータ) (2024-07-02T15:01:55Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Visually Grounded Speech Models have a Mutual Exclusivity Bias [20.495178526318185]
子どもが新しい単語を学ぶ際には、相互排他性(ME)バイアスのような制約を用いる。
このバイアスは計算学的に研究されてきたが、個々の単語表現を入力として使用するモデルでのみ研究されている。
自然画像と連続音声から学習する視覚的接地音声モデルの文脈におけるMEバイアスについて検討する。
論文 参考訳(メタデータ) (2024-03-20T18:49:59Z) - Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Visually Grounded Language Learning: a review of language games,
datasets, tasks, and models [60.2604624857992]
多くのVision+Language (V+L)タスクは、視覚的モダリティでシンボルをグラウンドできるモデルを作成することを目的として定義されている。
本稿では,V+L分野において提案されるいくつかの課題とモデルについて,系統的な文献レビューを行う。
論文 参考訳(メタデータ) (2023-12-05T02:17:29Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Like a bilingual baby: The advantage of visually grounding a bilingual
language model [0.0]
我々は、MS-COCO-ESから英語とスペイン語の画像やキャプションに基づいてLSTM言語モデルを訓練する。
視覚的基盤は、言語内および言語間のセマンティックな類似性に対するモデルの理解を改善し、パープレキシティを改善する。
本研究は,視覚的基盤言語モデルの利点を裏付ける追加の証拠を提供し,多言語話者と知覚的基盤を持つ多言語データセットからのより自然主義的な言語データの必要性を指摘する。
論文 参考訳(メタデータ) (2022-10-11T14:43:26Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。