論文の概要: MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
- arxiv url: http://arxiv.org/abs/2506.22434v1
- Date: Fri, 27 Jun 2025 17:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.32222
- Title: MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
- Title(参考訳): MiCo: 強化ビジュアル推論のためのマルチイメージコントラスト
- Authors: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao,
- Abstract要約: CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
- 参考スコア(独自算出の注目度): 72.81576836419373
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work explores enabling Chain-of-Thought (CoT) reasoning to link visual cues across multiple images. A straightforward solution is to adapt rule-based reinforcement learning for Vision-Language Models (VLMs). However, such methods typically rely on manually curated question-answer pairs, which can be particularly challenging when dealing with fine grained visual details and complex logic across images. Inspired by self-supervised visual representation learning, we observe that images contain inherent constraints that can serve as supervision. Based on this insight, we construct image triplets comprising two augmented views of the same image and a third, similar but distinct image. During training, the model is prompted to generate a reasoning process to compare these images (i.e., determine same or different). Then we optimize the model with rule-based reinforcement learning. Due to the high visual similarity and the presence of augmentations, the model must attend to subtle visual changes and perform logical reasoning to succeed. Experiments show that, although trained solely on visual comparison tasks, the learned reasoning ability generalizes effectively to a wide range of questions. Without relying on any human-annotated question-answer pairs, our method achieves significant improvements on multi-image reasoning benchmarks and shows strong performance on general vision tasks.
- Abstract(参考訳): この研究は、Chain-of-Thought (CoT)推論によって複数の画像に視覚的手がかりをリンクできるようにする。
簡単な解決策は、VLM(Vision-Language Models)にルールベースの強化学習を適用することである。
しかし、このような手法は通常、手動でキュレートされた質問応答ペアに依存しており、細粒度の視覚的詳細や画像間の複雑な論理を扱う場合、特に困難である。
自己監督型視覚表現学習にインスパイアされた画像は, 教師として機能する固有の制約を含むことを観察する。
この知見に基づいて、同じ画像の2つの拡張ビューと、類似しているが異なる第3のイメージからなる画像三重項を構築する。
トレーニング中、モデルはこれらの画像を比較するための推論プロセスを生成するように促される(すなわち、同じか異なるかを決定する)。
次に,ルールに基づく強化学習を用いてモデルを最適化する。
高い視覚的類似性と拡張の存在のため、モデルは微妙な視覚的変化に対応し、成功するための論理的推論を行う必要がある。
実験の結果,学習した推論能力は視覚的比較にのみ訓練されているものの,広範囲の質問に対して効果的に一般化できることが示唆された。
提案手法は,人間に注釈付き質問応答ペアを使わずに,マルチイメージ推論ベンチマークの大幅な改善を実現し,一般的な視覚タスクにおいて高い性能を示す。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning [41.59815187158526]
我々は視覚言語モデル(VLM)を訓練し、強化学習と視覚質問応答ペアを通して画像データに基づく推論を行う。
我々のモデルであるVisionary-R1は、複数の視覚的推論ベンチマークにおいて、強力なマルチモーダルモデルよりも優れています。
論文 参考訳(メタデータ) (2025-05-20T17:58:35Z) - The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights [26.85150689408895]
既存のマルチモーダルな数学的モデルでは視覚情報を最小限に活用できることを示す。
これは、意図せずモデルに回答を誘導するテキスト情報と回答オプションの優位性に起因している。
先行モデルをテストする際、微妙な視覚的差異を検知できないことは、現在の視覚知覚能力の限界を示唆している。
論文 参考訳(メタデータ) (2025-03-06T07:29:33Z) - Unleashing In-context Learning of Autoregressive Models for Few-shot Image Manipulation [70.95783968368124]
我々は、$textbfInstaManip$と呼ばれる新しいマルチモーダル自動回帰モデルを導入する。
本稿では,コンテキスト内学習プロセスを2つの段階に分割する,革新的なグループ自己認識機構を提案する。
提案手法は、過去の数ショット画像操作モデルよりも顕著なマージンを超越している。
論文 参考訳(メタデータ) (2024-12-02T01:19:21Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Cross-Modal Contrastive Learning for Robust Reasoning in VQA [76.1596796687494]
視覚的質問応答(VQA)におけるマルチモーダル推論は,近年急速に進展している。
ほとんどの推論モデルは、トレーニングデータから学んだショートカットに大きく依存しています。
本稿では,ショートカット推論の除去を目的とした,単純だが効果的なクロスモーダル・コントラスト学習戦略を提案する。
論文 参考訳(メタデータ) (2022-11-21T05:32:24Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。