論文の概要: A Multimodal Recaptioning Framework to Account for Perceptual Diversity in Multilingual Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2504.14359v1
- Date: Sat, 19 Apr 2025 17:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:11:42.177112
- Title: A Multimodal Recaptioning Framework to Account for Perceptual Diversity in Multilingual Vision-Language Modeling
- Title(参考訳): 多言語視覚言語モデリングにおける知覚多様性を考慮したマルチモーダル推論フレームワーク
- Authors: Kyle Buettner, Jacob Emmerson, Adriana Kovashka,
- Abstract要約: 視覚言語モデル(VLM)におけるキャプションの機械翻訳
データは主に英語話者から得られ、知覚バイアスとモデルの柔軟性の欠如を示している。
本稿では、翻訳前の英語字幕のオブジェクト記述を変更するLLMベースのマルチモーダル・リキャプション戦略を提案する。
- 参考スコア(独自算出の注目度): 25.43735315887918
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are many ways to describe, name, and group objects when captioning an image. Differences are evident when speakers come from diverse cultures due to the unique experiences that shape perception. Machine translation of captions has pushed multilingual capabilities in vision-language models (VLMs), but data comes mainly from English speakers, indicating a perceptual bias and lack of model flexibility. In this work, we address this challenge and outline a data-efficient framework to instill multilingual VLMs with greater understanding of perceptual diversity. We specifically propose an LLM-based, multimodal recaptioning strategy that alters the object descriptions of English captions before translation. The greatest benefits are demonstrated in a targeted multimodal mechanism guided by native speaker data. By adding produced rewrites as augmentations in training, we improve on German and Japanese text-image retrieval cases studies (up to +3.5 mean recall overall, +4.7 on non-native error cases). We further propose a mechanism to analyze the specific object description differences across datasets, and we offer insights into cross-dataset and cross-language generalization.
- Abstract(参考訳): イメージをキャプションするときに、オブジェクトを記述、名前、グループ化する方法はたくさんあります。
話者が多様な文化の出身であることは、知覚を形作るユニークな経験から明らかである。
字幕の機械翻訳は視覚言語モデル(VLM)において多言語的能力を押し上げてきたが、データは主に英語話者からのものであり、知覚バイアスとモデルの柔軟性の欠如を示している。
本稿では、この課題に対処し、多言語VLMに知覚多様性をより深く理解させるためのデータ効率フレームワークの概要を述べる。
具体的には、翻訳前の英語字幕のオブジェクト記述を変更するLLMベースのマルチモーダル再カプセル化戦略を提案する。
最大のメリットは、ネイティブ話者データによってガイドされるターゲットマルチモーダルメカニズムで示される。
トレーニングの強化として生成した書き直しを追加することで、ドイツ語と日本語のテキスト画像検索のケーススタディを改善した(平均リコール総数+3.5、非ネイティブエラーの場合+4.7)。
さらに、データセット間の特定のオブジェクト記述の違いを分析するメカニズムを提案し、クロスデータセットおよび言語間一般化に関する洞察を提供する。
関連論文リスト
- Breaking Language Barriers in Visual Language Models via Multilingual Textual Regularization [9.349707150988893]
本稿では,視覚的インストラクションチューニング中にテキストのみの多言語データを注入する連続多言語統合戦略を提案する。
本手法は,視覚能力の低下を伴わない言語間の言語忠実度を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-28T16:26:52Z) - Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval [28.589035749529955]
我々は、ドイツ原住民の認識から生まれたキャプションのトレーニングと、機械翻訳または人間翻訳されたキャプションと、英語からドイツ語に翻訳されたキャプションの間に、パフォーマンスのギャップを経験的に示す。
平均的なリコール改善(+1.3)を達成する一方で、ギャップは依然として残っており、コミュニティの将来的な作業のオープンな領域を示している。
論文 参考訳(メタデータ) (2024-10-02T20:47:53Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CLARA: Multilingual Contrastive Learning for Audio Representation
Acquisition [5.520654376217889]
CLARAはラベル付きデータへの依存を最小限に抑え、言語間の一般化を強化する。
我々のアプローチは、主観的評価問題を克服し、音声における感情的ニュアンスを十分に捉えている。
低リソース言語に適応し、多言語音声表現学習の進歩を示す。
論文 参考訳(メタデータ) (2023-10-18T09:31:56Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - What's in a Caption? Dataset-Specific Linguistic Diversity and Its
Effect on Visual Description Models and Metrics [14.624063829492764]
キャプションの多様性は、ジェネリックキャプションの生成の背後にある主要な要因であることがわかった。
現状のモデルでは、現代のメトリクスの根拠となる真実のキャプションよりも優れています。
論文 参考訳(メタデータ) (2022-05-12T17:55:08Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。