論文の概要: Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs
- arxiv url: http://arxiv.org/abs/2511.11427v1
- Date: Fri, 14 Nov 2025 15:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.703332
- Title: Comprehension of Multilingual Expressions Referring to Target Objects in Visual Inputs
- Title(参考訳): 視覚入力における対象物を参照する多言語表現の理解
- Authors: Francisco Nogueira, Alexandre Bernardino, Bruno Martins,
- Abstract要約: Referring Expression (REC) は、自然言語の記述に基づいてオブジェクトを画像にローカライズするモデルを必要とする。
この研究は2つの主要な貢献を通じて多言語RECに対処する。
10言語にまたがる統合多言語データセットを構築し、機械翻訳と文脈に基づく翻訳拡張により、既存の12のRECベンチマークを体系的に拡張する。
得られたデータセットは、177,620の画像にまたがる800万の多言語参照表現と、336,882の注釈付きオブジェクトで構成されている。
- 参考スコア(独自算出の注目度): 47.944645462877894
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Referring Expression Comprehension (REC) requires models to localize objects in images based on natural language descriptions. Research on the area remains predominantly English-centric, despite increasing global deployment demands. This work addresses multilingual REC through two main contributions. First, we construct a unified multilingual dataset spanning 10 languages, by systematically expanding 12 existing English REC benchmarks through machine translation and context-based translation enhancement. The resulting dataset comprises approximately 8 million multilingual referring expressions across 177,620 images, with 336,882 annotated objects. Second, we introduce an attention-anchored neural architecture that uses multilingual SigLIP2 encoders. Our attention-based approach generates coarse spatial anchors from attention distributions, which are subsequently refined through learned residuals. Experimental evaluation demonstrates competitive performance on standard benchmarks, e.g. achieving 86.9% accuracy at IoU@50 on RefCOCO aggregate multilingual evaluation, compared to an English-only result of 91.3%. Multilingual evaluation shows consistent capabilities across languages, establishing the practical feasibility of multilingual visual grounding systems. The dataset and model are available at $\href{https://multilingual.franreno.com}{multilingual.franreno.com}$.
- Abstract(参考訳): Referring Expression Comprehension (REC) は、自然言語記述に基づいて画像中のオブジェクトをローカライズするモデルを必要とする。
この地域の研究は、世界展開の需要が増大しているにもかかわらず、主に英語中心である。
この研究は2つの主要な貢献を通じて多言語RECに対処する。
まず,機械翻訳と文脈ベース翻訳の強化により,既存の12のRECベンチマークを体系的に拡張し,10言語にまたがる統一多言語データセットを構築する。
得られたデータセットは、177,620の画像にまたがる800万の多言語参照表現と、336,882の注釈付きオブジェクトで構成されている。
次に,多言語SigLIP2エンコーダを用いた注目型ニューラルネットワークを提案する。
我々の注意に基づくアプローチは、注意分布から粗い空間アンカーを生成し、その後、学習された残留物によって洗練される。
実験的な評価は、標準ベンチマーク上での競争性能を示し、例えば、IoU@50においてRefCOCO集約多言語評価において86.9%の精度を達成している。
多言語評価は、言語間で一貫した機能を示し、多言語視覚基盤システムの実現可能性を確立する。
データセットとモデルは$\href{https://multilingual.franreno.com}{multilingual.franreno.com}$で入手できる。
関連論文リスト
- Improving Retrieval-Augmented Neural Machine Translation with Monolingual Data [18.150384435635477]
多くの設定では、ターゲット言語の単言語コーパスがしばしば利用可能である。
文レベルと単語レベルの整合性を両立させた改良型言語間検索システムを設計した。
また,本手法はモノリンガルよりもはるかに大きく,ベースライン設定と汎用的クロスリンガル検索の双方に対して強い改善が見られた。
論文 参考訳(メタデータ) (2025-04-30T15:41:03Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - MultiTACRED: A Multilingual Version of the TAC Relation Extraction
Dataset [6.7839993945546215]
そこで本研究では,9つの言語群から12種類の言語を対象とするMultiTACREDデータセットについて紹介する。
翻訳とアノテーションのプロジェクションの品質を分析し、エラーカテゴリを特定し、訓練済みの単言語および多言語言語モデルの微調整を実験的に評価する。
対象言語の多くにおいて、モノリンガルREモデルの性能は英語オリジナルに匹敵するものであり、英語とターゲット言語データの組み合わせで訓練された多言語モデルは、モノリンガルモデルよりも優れている。
論文 参考訳(メタデータ) (2023-05-08T09:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。