論文の概要: Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning
- arxiv url: http://arxiv.org/abs/2409.15052v1
- Date: Mon, 23 Sep 2024 14:29:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:44:12.224391
- Title: Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning
- Title(参考訳): WMT 2024 におけるブラザーフッド:LLMによる言語間画像キャプションのための文脈会話の活用
- Authors: Siddharth Betala, Ishan Chokshi,
- Abstract要約: 本稿では,英語から英語への多モーダル翻訳タスクにおけるブラザーフッド(Brotherhood)というチーム名でシステムについて述べる。
我々は,イングリッシュ・ヒンディー語,イングリッシュ・ハウサ語,イングリッシュ・ベンガル語,イングリッシュ・マラヤラム語対の多モーダル翻訳作業に参加している。
本稿では,多モーダル大言語モデル(LLM),特に GPT-4o と Claude 3.5 Sonnet を利用して,言語間画像キャプションを強化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we describe our system under the team name Brotherhood for the English-to-Lowres Multi-Modal Translation Task. We participate in the multi-modal translation tasks for English-Hindi, English-Hausa, English-Bengali, and English-Malayalam language pairs. We present a method leveraging multi-modal Large Language Models (LLMs), specifically GPT-4o and Claude 3.5 Sonnet, to enhance cross-lingual image captioning without traditional training or fine-tuning. Our approach utilizes instruction-tuned prompting to generate rich, contextual conversations about cropped images, using their English captions as additional context. These synthetic conversations are then translated into the target languages. Finally, we employ a weighted prompting strategy, balancing the original English caption with the translated conversation to generate captions in the target language. This method achieved competitive results, scoring 37.90 BLEU on the English-Hindi Challenge Set and ranking first and second for English-Hausa on the Challenge and Evaluation Leaderboards, respectively. We conduct additional experiments on a subset of 250 images, exploring the trade-offs between BLEU scores and semantic similarity across various weighting schemes.
- Abstract(参考訳): 本稿では,英語と英語のマルチモーダル翻訳タスクにおけるブラザーフッド(Brotherhood)というチーム名の下で,我々のシステムについて述べる。
我々は,イングリッシュ・ヒンディー語,イングリッシュ・ハウサ語,イングリッシュ・ベンガル語,イングリッシュ・マラヤラム語対の多モーダル翻訳作業に参加している。
本稿では,GPT-4o と Claude 3.5 Sonnet を多モード大言語モデル (LLMs) に応用し,従来の訓練や微調整を伴わずに,言語横断的な画像キャプションを強化する手法を提案する。
提案手法では,英語のキャプションを付加文脈として用いて,トリミング画像に関するリッチで文脈的な会話を生成する。
これらの合成会話は対象言語に翻訳される。
最後に,原文の英文キャプションと翻訳された会話のバランスをとる重み付きプロンプト戦略を用いて,ターゲット言語でキャプションを生成する。
この方式は、イングランド・ヒンディー・チャレンジ・セットで37.90 BLEUを、イギリス・ハウサ・チャレンジと評価・リーダーボードでそれぞれ1位と2位を獲得した。
我々は250枚の画像のサブセットについて追加実験を行い、BLEUスコアと様々な重み付けスキーム間の意味的類似性の間のトレードオフを探索する。
関連論文リスト
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Silo NLP's Participation at WAT2022 [0.9297355862757839]
アジア翻訳ワークショップ(WAT2022)に提出された「Silo NLP」のシステム記述について述べる。
テキストのみの翻訳では、スクラッチからTransformerをトレーニングし、mBART-50モデルを微調整しました。
マルチモーダル翻訳では,同じmBARTアーキテクチャを用いて画像からオブジェクトタグを抽出し,テキストシーケンスの視覚的特徴として利用した。
論文 参考訳(メタデータ) (2022-08-02T07:49:33Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - ViTA: Visual-Linguistic Translation by Aligning Object Tags [7.817598216459955]
マルチモーダル機械翻訳(Multimodal Machine Translation、MMT)は、翻訳のための視覚情報でソーステキストを豊かにする。
本稿では,WAT 2021の多モーダル翻訳タスクを英語からヒンディー語に翻訳するシステムを提案する。
論文 参考訳(メタデータ) (2021-06-01T06:19:29Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Practical Comparable Data Collection for Low-Resource Languages via
Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文 参考訳(メタデータ) (2020-04-24T19:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。