論文の概要: Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task
- arxiv url: http://arxiv.org/abs/2605.20626v1
- Date: Wed, 20 May 2026 02:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.442004
- Title: Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submission for AmericasNLP 2026 shared task
- Title(参考訳): Retrieval-Augmented Long-Context Translation for Cultural Image Captioning: Gators submit for AmericasNLP 2026 shared task
- Authors: Aashish Dhawan, Christopher Driggers-Ellis, Dzmitry Kasinets, Daisy Zhe Wang, Christan Grant,
- Abstract要約: 2段階のパイプラインは、Qwen2.5-VLでスペイン語の中間キャプションを生成し、ゲミニ2.5フラッシュで検索強化されたマルチショットプロンプトを使用してターゲットのキャプションを生成する。
我々はそれぞれ、ブリブリ、グアラン、オリザバ・ナワトルの共通タスクベースラインよりも164.1%、131.7%、122.6%改善した。
我々の提出は共有タスクの総合的な勝者であり、目標字幕の人間評価において5つのファイナリストの提出のうち2位に位置づける。
- 参考スコア(独自算出の注目度): 5.3888934816887115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the University of Florida Gators submission to the AmericasNLP 2026 shared task on cultural image captioning for Indigenous languages. Our two-stage pipeline generates a Spanish intermediate caption with Qwen2.5-VL, then produces the target-language caption using retrieval-augmented many-shot prompting with Gemini 2.5 Flash. We achieve 164.1%, 131.7%, and 122.6% improvements over the shared task baseline for Bribri, Guaraní, and Orizaba Nahuatl captioning, respectively, in our dev set evaluation and maintain >150% improvements for the Bribri and Orizaba Nahuatl languages in the test set evaluation. We find retrieval is highly language-dependent, beneficial only for large, in-domain corpora, and that synthetic data augmentation accounts for around 28 chrF++ of the dev set Guaraní performance gain. Our submission is the overall winner of the shared task, placing second out of five finalist submissions in human evaluations of target-language captions.
- Abstract(参考訳): 我々はフロリダ・ゲーターズ大学がアメリカスNLP 2026に提出した、先住民族の言語に対する文化イメージキャプションの共有タスクについて紹介する。
我々の2段パイプラインは、Qwen2.5-VLでスペイン語の中間キャプションを生成し、ゲミニ2.5フラッシュで検索強化多ショットプロンプトを用いてターゲット言語キャプションを生成する。
We achieve 164.1%, 131.7%, 122.6% improve on the shared task baseline for Bribri, Guaraní, Orizaba Nahuatl casting, in our dev set evaluation and maintain >150% improve for the Bribri and Orizaba Nahuatl languages in the test set evaluation。
検索は言語に依存しており、大きなドメイン内のコーパスにのみ有効であり、Gurraníのパフォーマンス向上の28 chrF++の合成データ拡張が寄与している。
我々の提出は共有タスクの総合的な勝者であり、目標字幕の人間評価において5つのファイナリストの提出のうち2位に位置づける。
関連論文リスト
- The GaoYao Benchmark: A Comprehensive Framework for Evaluating Multilingual and Multicultural Abilities of Large Language Models [51.61416200800499]
GaoYaoは182.3kサンプル、26言語、51か国/地域からなる総合ベンチマークである。
まず、GaoYao氏は評価タスクを3つの文化階層に分類する統一的なフレームワークを提案する。
第二に、専門家を活用して、主観的なベンチマークを19言語に厳格にローカライズすることで、ネイティブ品質の拡大を実現しています。
第3に,20以上のフラッグシップおよびコンパクトLCMの詳細な診断を行う。
論文 参考訳(メタデータ) (2026-04-22T06:19:46Z) - Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning [0.0]
本稿では,英語から英語への多モーダル翻訳タスクにおけるブラザーフッド(Brotherhood)というチーム名でシステムについて述べる。
我々は,イングリッシュ・ヒンディー語,イングリッシュ・ハウサ語,イングリッシュ・ベンガル語,イングリッシュ・マラヤラム語対の多モーダル翻訳作業に参加している。
本稿では,多モーダル大言語モデル(LLM),特に GPT-4o と Claude 3.5 Sonnet を利用して,言語間画像キャプションを強化する手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T14:29:46Z) - Improving Multimodal Datasets with Image Captioning [65.74736570293622]
生成したキャプションが非記述テキストによるWebスクラッピングデータポイントの有用性を高める方法について検討する。
DataComp の大規模字幕 (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界について考察した。
論文 参考訳(メタデータ) (2023-07-19T17:47:12Z) - UAlberta at SemEval-2023 Task 1: Context Augmentation and Translation
for Multilingual Visual Word Sense Disambiguation [4.453335084914169]
本稿では,SemEval-2023 Visual Word Sense Disambiguation (V-WSD) Taskについてアルバータ大学のシステムについて述べる。
本稿では,BabelNetから取得したグロスとテキストと画像エンコーダを組み合わせた新しいアルゴリズムを提案する。
また、翻訳テキストへの英語エンコーダの適用と、言語固有のエンコーダを比較した。
論文 参考訳(メタデータ) (2023-06-24T22:00:06Z) - Sheffield's Submission to the AmericasNLP Shared Task on Machine Translation into Indigenous Languages [0.39134031118910273]
シェフィールド大学のアメリカスNLP 2023への提出について述べる。
我々のアプローチは、NLLB-200の様々なバリエーションを拡張し、訓練し、アンサンブルすることから成り立っている。
特にAymara、Guarani、Kechuaでは大幅に改善され、開発セットでは、すべての言語でベースラインを平均11%向上させています。
論文 参考訳(メタデータ) (2023-06-16T13:15:26Z) - CapDet: Unifying Dense Captioning and Open-World Detection Pretraining [68.8382821890089]
本稿では,所定のカテゴリリストに基づいて予測するか,あるいは予測された境界ボックスのカテゴリを直接生成する,CapDetという新しいオープンワールド検出器を提案する。
具体的には,オープンワールド検出と高密度キャプションタスクを,付加的な高密度キャプションヘッドを導入することで,単一の効果的なフレームワークに統合する。
論文 参考訳(メタデータ) (2023-03-04T19:53:00Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Comparing Approaches to Dravidian Language Identification [4.284178873394113]
本稿では、VarDial 2021ワークショップにおいて、チームHWRによるDLI(Dravidian Language Identification)共有タスクへの提出について述べる。
DLIトレーニングセットには、ローマ文字で書かれた16,674のYouTubeコメントが含まれ、英語とコードミックスされたテキストと3つの南ドラヴィディアン言語(カンナダ語、マラヤラム語、タミル語)の1つです。
本結果は,他の多くのテキスト分類タスクほど,ディープラーニング手法が言語識別関連タスクと競合するものではない,という考え方を補強するものである。
論文 参考訳(メタデータ) (2021-03-09T16:58:55Z) - Practical Comparable Data Collection for Low-Resource Languages via
Images [126.64069379167975]
本稿では,モノリンガルアノテータを用いた低リソース言語のための高品質な同等のトレーニングデータをキュレートする手法を提案する。
本手法では, ソースとターゲット言語間のピボットとして, 慎重に選択した画像の集合を用いて, 両方の言語でその画像のキャプションを独立に取得する。
本手法で作成した英ヒンディー語対応コーパスの人間による評価では、対の81.1%が許容される翻訳であり、対の2.47%が全く翻訳ではない。
論文 参考訳(メタデータ) (2020-04-24T19:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。