論文の概要: Align Where the Words Look: Cross-Attention-Guided Patch Alignment with Contrastive and Transport Regularization for Bengali Captioning
- arxiv url: http://arxiv.org/abs/2509.18369v1
- Date: Mon, 22 Sep 2025 19:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.553616
- Title: Align Where the Words Look: Cross-Attention-Guided Patch Alignment with Contrastive and Transport Regularization for Bengali Captioning
- Title(参考訳): ベンガリ捕集におけるコントラストと輸送規則を併用したクロスアテンションガイドパッチアライメント
- Authors: Riad Ahmed Anonto, Sardar Md. Saffat Zabin, M. Saifur Rahman,
- Abstract要約: 我々は、110kのバイリンガルプロンプ画像上に、計算対応のBengaliキャプションパイプラインを訓練する。
凍結されたMaxViTは安定した視覚パッチ、BengaliネイティブのmBART-50デコード、および軽量ブリッジを接続する。
このPAL+InfoNCE+OTシナジーはグラウンド化を改善し、スプリアスマッチを減らし、Flickr30k-1k (BLEU-4 12.29, METEOR 27.98, BERTScore-F1 71.20) とMSCOCO-1k (BLEU-412.00, METEOR 28.14, BERTScore-F1 75) に強い利得をもたらす。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding vision--language models in low-resource languages remains challenging, as they often produce fluent text about the wrong objects. This stems from scarce paired data, translation pivots that break alignment, and English-centric pretraining that ignores target-language semantics. We address this with a compute-aware Bengali captioning pipeline trained on LaBSE-verified EN--BN pairs and 110k bilingual-prompted synthetic images. A frozen MaxViT yields stable visual patches, a Bengali-native mBART-50 decodes, and a lightweight bridge links the modalities. Our core novelty is a tri-loss objective: Patch-Alignment Loss (PAL) aligns real and synthetic patch descriptors using decoder cross-attention, InfoNCE enforces global real--synthetic separation, and Sinkhorn-based OT ensures balanced fine-grained patch correspondence. This PAL+InfoNCE+OT synergy improves grounding, reduces spurious matches, and drives strong gains on Flickr30k-1k (BLEU-4 12.29, METEOR 27.98, BERTScore-F1 71.20) and MSCOCO-1k (BLEU-4 12.00, METEOR 28.14, BERTScore-F1 75.40), outperforming strong CE baselines and narrowing the real--synthetic centroid gap by 41%.
- Abstract(参考訳): 低リソース言語における接地視覚-言語モデルは、しばしば間違ったオブジェクトに関する流動的なテキストを生成するため、依然として困難である。
これは、ペアデータが少ないこと、アライメントを壊す翻訳ピボット、ターゲット言語のセマンティクスを無視する英語中心の事前トレーニングに由来する。
本稿では,LaBSE-verified EN--BNペアと110kのバイリンガルプロンプト合成画像に基づいて学習した計算用ベンガルキャプションパイプラインを用いてこの問題に対処する。
凍結されたMaxViTは安定した視覚パッチ、BengaliネイティブのmBART-50デコード、および軽量ブリッジを接続する。
パッチ・アライメント・ロス(PAL)はデコーダのクロスアテンションを用いて、実際のパッチ記述子と合成パッチ記述子をアライメントし、InfoNCEはグローバルなリアルタイム合成分離を強制し、シンクホーンベースのOTは、バランスの取れたきめ細かなパッチ対応を保証する。
このPAL+InfoNCE+OTシナジーはグラウンド化を改善し、スプリアスマッチを減らし、Flickr30k-1k (BLEU-4 12.29, METEOR 27.98, BERTScore-F1 71.20) とMSCOCO-1k (BLEU-4 12.00, METEOR 28.14, BERTScore-F1 75.40) に強い利得をもたらし、強力なCEベースラインを上回り、実合成セントロイドギャップを41%縮小する。
関連論文リスト
- Phonology-Guided Speech-to-Speech Translation for African Languages [2.7624021966289605]
音声合成のための韻律誘導フレームワーク(S2ST)を提案する。
Emphwithin-phylum言語対は30-40%低停止,3$times$以上のオンセット/オフセット相関を示した。
また、人間の判断と強く相関する3層無転写BLEUスイート(M1-M3)もリリースしています。
論文 参考訳(メタデータ) (2024-10-30T09:44:52Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - Improving Word Translation via Two-Stage Contrastive Learning [46.71404992627519]
BLIタスクのための頑健で効果的な2段階のコントラスト学習フレームワークを提案する。
多様な言語のための標準BLIデータセットに関する総合的な実験は、我々のフレームワークによって実現された大きな成果を示している。
論文 参考訳(メタデータ) (2022-03-15T22:51:22Z) - Data Efficient Language-supervised Zero-shot Recognition with Optimal
Transport Distillation [43.03533959429743]
本稿では,オンライン最適トランスポートを用いて,コントラスト学習のためのラベルとしてソフトな画像テキストマッチングを求めるOTTERを提案する。
事前訓練された画像とテキストエンコーダに基づいて、OTTERで訓練されたモデルは、3M画像テキストペアだけで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T11:27:26Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。