論文の概要: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA
- arxiv url: http://arxiv.org/abs/2509.10026v1
- Date: Fri, 12 Sep 2025 07:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.007206
- Title: LaV-CoT: Language-Aware Visual CoT with Multi-Aspect Reward Optimization for Real-World Multilingual VQA
- Title(参考訳): LaV-CoT:実世界多言語VQAのためのマルチアスペクト・リワード最適化を用いた言語対応Visual CoT
- Authors: Jing Huang, Zhiya Tan, Shutao Gong, Fanwei Zeng, Jianshu Li,
- Abstract要約: 思考の連鎖(CoT)推論は、解釈可能性と複雑な推論を高めることが証明されている。
マルチスーパーバイザ・リワード最適化を用いた最初の言語対応Visual CoTフレームワークである textbfLaV-CoT を紹介する。
- 参考スコア(独自算出の注目度): 5.71970734622095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large vision language models (VLMs) advance, their capabilities in multilingual visual question answering (mVQA) have significantly improved. Chain-of-thought (CoT) reasoning has been proven to enhance interpretability and complex reasoning. However, most existing approaches rely primarily on textual CoT and provide limited support for multilingual multimodal reasoning, constraining their deployment in real-world applications. To address this gap, we introduce \textbf{LaV-CoT}, the first Language-aware Visual CoT framework with Multi-Aspect Reward Optimization. LaV-CoT incorporates an interpretable multi-stage reasoning pipeline consisting of Text Summary with Bounding Box (BBox), Language Identification, Spatial Object-level Captioning, and Step-by-step Logical Reasoning. Following this reasoning pipeline, we design an automated data curation method that generates multilingual CoT annotations through iterative generation, correction, and refinement, enabling scalable and high-quality training data. To improve reasoning and generalization, LaV-CoT adopts a two-stage training paradigm combining Supervised Fine-Tuning (SFT) with Language-aware Group Relative Policy Optimization (GRPO), guided by verifiable multi-aspect rewards including language consistency, structural accuracy, and semantic alignment. Extensive evaluations on public datasets including MMMB, Multilingual MMBench, and MTVQA show that LaV-CoT achieves up to \(\sim\)9.5\% accuracy improvements over open-source baselines of similar size and even surpasses models with 2$\times$ larger scales by \(\sim\)2.6\%. Moreover, LaV-CoT outperforms advanced proprietary models such as GPT-4o-0513 and Gemini-2.5-flash. We further conducted an online A/B test to validate our method on real-world data, highlighting its effectiveness for industrial deployment. Our code is available at this link: \href{https://github.com/HJNVR/LaV-CoT}
- Abstract(参考訳): 視覚言語モデル(VLM)の進歩に伴い、多言語視覚質問応答(mVQA)の能力は大幅に向上した。
思考の連鎖(CoT)推論は、解釈可能性と複雑な推論を高めることが証明されている。
しかし、既存のほとんどのアプローチは、主にテキストCoTに依存し、マルチ言語によるマルチモーダル推論を限定的にサポートし、実際のアプリケーションへのデプロイを制限している。
このギャップを解決するために,マルチアスペクト・リワード最適化を備えた最初の言語対応Visual CoT フレームワークである \textbf{LaV-CoT} を紹介する。
LaV-CoTには、テキスト概要とバウンディングボックス(BBox)、言語識別、空間オブジェクトレベルのキャプション、ステップバイステップ論理推論からなる解釈可能な多段階推論パイプラインが組み込まれている。
この推論パイプラインに従えば、反復生成、修正、改善を通じて多言語CoTアノテーションを生成する自動データキュレーションを設計し、スケーラブルで高品質なトレーニングデータを可能にする。
推論と一般化を改善するため、LaV-CoT は Supervised Fine-Tuning (SFT) と Language-aware Group Relative Policy Optimization (GRPO) を組み合わせた2段階のトレーニングパラダイムを採用し、言語整合性、構造精度、セマンティックアライメントなどの検証可能なマルチアスペクト報酬によって導かれる。
MMMB、Multilingual MMBench、MTVQAなどの公開データセットの大規模な評価によると、LaV-CoTは、同じサイズのオープンソースベースラインよりも最大で2$\times$大スケールのモデルを2(\sim\)2.6\%で上回る精度の向上を達成している。
さらに、LaV-CoTはGPT-4o-0513やGemini-2.5-flashといった先進的なプロプライエタリモデルよりも優れている。
さらに,本手法を実世界のデータで検証するためのオンラインA/Bテストを実施し,産業展開の有効性を強調した。
私たちのコードは、このリンクで利用可能です。 \href{https://github.com/HJNVR/LaV-CoT}
関連論文リスト
- Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。
ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。
その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文 参考訳(メタデータ) (2025-07-18T03:19:43Z) - Rethinking Multilingual Vision-Language Translation: Dataset, Evaluation, and Adaptation [45.551223552275424]
視覚言語翻訳は、画像に埋め込まれた多言語テキストを正確に認識する必要がある課題である。
本稿では,データ品質,モデルアーキテクチャ,評価指標の3つの重要な視点からVLTを総合的に検討する。
論文 参考訳(メタデータ) (2025-06-13T14:23:38Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。