論文の概要: MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.10575v1
- Date: Wed, 11 Feb 2026 06:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.517677
- Title: MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning
- Title(参考訳): MetaphorStar: エンドツーエンドの視覚強化学習による画像メタファー理解と推論
- Authors: Chenhao Zhang, Yazhe Niu, Hongsheng Li,
- Abstract要約: 画像インプリケーションタスクのための,最初のエンドツーエンドのビジュアル強化学習フレームワークであるMetaphorStarを提案する。
フレームワークには,詳細なデータセットTFQ-Data,ビジュアルRLメソッドTFQ-GRPO,よく構造化されたベンチマークTFQ-Benchの3つのコアコンポーネントが含まれている。
メタファースター32Bは20以上のメインストリームのMLLMと比較して、複数項目の質問とオープンスタイルの質問に対して最先端のSOTA(State-of-the-art)を達成する。
- 参考スコア(独自算出の注目度): 36.954506162798445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metaphorical comprehension in images remains a critical challenge for Nowadays AI systems. While Multimodal Large Language Models (MLLMs) excel at basic Visual Question Answering (VQA), they consistently struggle to grasp the nuanced cultural, emotional, and contextual implications embedded in visual content. This difficulty stems from the task's demand for sophisticated multi-hop reasoning, cultural context, and Theory of Mind (ToM) capabilities, which current models lack. To fill this gap, we propose MetaphorStar, the first end-to-end visual reinforcement learning (RL) framework for image implication tasks. Our framework includes three core components: the fine-grained dataset TFQ-Data, the visual RL method TFQ-GRPO, and the well-structured benchmark TFQ-Bench. Our fully open-source MetaphorStar family, trained using TFQ-GRPO on TFQ-Data, significantly improves performance by an average of 82.6% on the image implication benchmarks. Compared with 20+ mainstream MLLMs, MetaphorStar-32B achieves state-of-the-art (SOTA) on Multiple-Choice Question and Open-Style Question, significantly outperforms the top closed-source model Gemini-3.0-pro on True-False Question. Crucially, our experiments reveal that learning image implication tasks improves the general understanding ability, especially the complex visual reasoning ability. We further provide a systematic analysis of model parameter scaling, training data scaling, and the impact of different model architectures and training strategies, demonstrating the broad applicability of our method. We open-sourced all model weights, datasets, and method code at https://metaphorstar.github.io.
- Abstract(参考訳): 画像のメタフォリカル理解は、現代AIシステムにとって重要な課題である。
MLLM(Multimodal Large Language Models)は、基本的な視覚質問回答(VQA)に優れていますが、視覚コンテンツに埋め込まれた文化的、感情的、文脈的な意味を理解するのに一貫して苦労しています。
この難しさは、現在のモデルに欠けている高度なマルチホップ推論、文化的文脈、心の理論(ToM)能力に対するタスクの要求に起因している。
このギャップを埋めるために,画像インプリケーションタスクのための最初のエンドツーエンドビジュアル強化学習(RL)フレームワークであるMetaphorStarを提案する。
フレームワークには,詳細なデータセットTFQ-Data,ビジュアルRLメソッドTFQ-GRPO,よく構造化されたベンチマークTFQ-Benchの3つのコアコンポーネントが含まれている。
TFQ-GRPOをTFQ-Dataでトレーニングした完全にオープンソースのMetaphorStarファミリは、イメージ含意ベンチマークで平均82.6%パフォーマンスを向上しました。
MetaphorStar-32Bは20以上のメインストリームMLLMと比較して、マルチコース質問とオープンスタイル質問の最先端(SOTA)を達成し、True-False QuestionのトップクローズドソースモデルであるGemini-3.0-proよりも大幅に優れています。
重要なことは、学習画像含意タスクが一般的な理解能力、特に複雑な視覚的推論能力を改善することを明らかにする。
さらに、モデルパラメータのスケーリング、トレーニングデータスケーリング、および異なるモデルアーキテクチャとトレーニング戦略の影響を体系的に分析し、本手法の適用性を実証する。
私たちはhttps://metaphorstar.github.io.comですべてのモデルウェイト、データセット、メソッドコードをオープンソース化しました。
関連論文リスト
- When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - Multi-aspect Knowledge Distillation with Large Language Model [2.317771311576205]
マルチモーダル大言語モデル(MLLM)を用いた多視点知識蒸留法を提案する。
本手法は主に画像分類に適用し,オブジェクト検出などのモデル拡張の可能性を探究する。
論文 参考訳(メタデータ) (2025-01-23T02:45:35Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [64.32993770646165]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率,スケーラブルなデータ合成手法であるCode-as-Intermediary Translation (CIT)を提案する。
ReachQAは、MLLMの認識と推論能力を高めるために、3kの推論集約チャートと20kのQ&Aペアを含むデータセットである。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。