論文の概要: PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2506.14907v1
- Date: Tue, 17 Jun 2025 18:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.44997
- Title: PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning
- Title(参考訳): PeRL:Interleaved Vision-Language Reasoningのための置換強化強化強化学習
- Authors: Yizhen Zhang, Yang Ding, Shuoshuo Zhang, Xinchen Zhang, Haoling Li, Zhong-zhi Li, Peijie Wang, Jie Wu, Lei Ji, Yelong Shen, Yujiu Yang, Yeyun Gong,
- Abstract要約: 本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 50.21619363035618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the impressive reasoning capabilities demonstrated by reinforcement learning approaches like DeepSeek-R1, recent emerging research has begun exploring the use of reinforcement learning (RL) to enhance vision-language models (VLMs) for multimodal reasoning tasks. However, most existing multimodal reinforcement learning approaches remain limited to spatial reasoning within single-image contexts, yet still struggle to generalize to more complex and real-world scenarios involving multi-image positional reasoning, where understanding the relationships across images is crucial. To address this challenge, we propose a general reinforcement learning approach PeRL tailored for interleaved multimodal tasks, and a multi-stage strategy designed to enhance the exploration-exploitation trade-off, thereby improving learning efficiency and task performance. Specifically, we introduce permutation of image sequences to simulate varied positional relationships to explore more spatial and positional diversity. Furthermore, we design a rollout filtering mechanism for resampling to focus on trajectories that contribute most to learning optimal behaviors to exploit learned policies effectively. We evaluate our model on 5 widely-used multi-image benchmarks and 3 single-image benchmarks. Our experiments confirm that PeRL trained model consistently surpasses R1-related and interleaved VLM baselines by a large margin, achieving state-of-the-art performance on multi-image benchmarks, while preserving comparable performance on single-image tasks.
- Abstract(参考訳): DeepSeek-R1のような強化学習アプローチによって示される印象的な推論能力に触発された最近の研究は、マルチモーダル推論タスクのための視覚言語モデル(VLM)を強化するために強化学習(RL)の利用を探求し始めている。
しかし、既存のマルチモーダル強化学習アプローチの多くは、単一イメージ内の空間的推論に限られるが、画像間の関係を理解することが不可欠であるマルチモーダル位置推論を含む、より複雑で現実的なシナリオへの一般化に苦慮している。
この課題に対処するため、我々は、インターリーブされたマルチモーダルタスクに適した汎用強化学習手法であるPeRLと、探索・探索トレードオフを強化するために設計された多段階戦略を提案し、学習効率とタスク性能を向上させる。
具体的には,様々な位置関係をシミュレートし,より空間的・位置的多様性を探求するために,画像列の置換を導入する。
さらに,学習ポリシーを効果的に活用するための最適行動の学習に最も貢献する軌道に焦点を合わせるために,再サンプリングのためのロールアウトフィルタリング機構を設計する。
広範に使用されている5つのマルチイメージベンチマークと3つのシングルイメージベンチマークでモデルを評価する。
実験の結果,PeRLトレーニングモデルはR1関連およびインターリーブされたVLMベースラインをはるかに上回り,マルチイメージのベンチマークで最先端のパフォーマンスを達成し,シングルイメージタスクでは同等のパフォーマンスを保っていることがわかった。
関連論文リスト
- Advancing Multimodal Reasoning Capabilities of Multimodal Large Language Models via Visual Perception Reward [87.06604760273372]
本稿では,MLLMに視覚内容の正確な知覚を促す新しい視覚認識報酬を導入するPerception-R1を提案する。
本稿では,Perception-R1が1,442のトレーニングデータのみを用いて,ほとんどのベンチマークで最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2025-06-08T16:48:42Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning [30.073631823776825]
ユニバーサルビジュアルグラウンドティングのための推論ガイド付きマルチモーダル言語モデル(MLLM)であるUniVG-R1を提案する。
まず,より詳細な推論連鎖を付加した高品質な起点データセットを構築した。
次に、ルールに基づく強化学習を行い、モデルに正しい推論連鎖を特定することを奨励し、それによって推論能力を高める。
論文 参考訳(メタデータ) (2025-05-20T11:40:43Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - CoTMR: Chain-of-Thought Multi-Scale Reasoning for Training-Free Zero-Shot Composed Image Retrieval [13.59418209417664]
Zero-Shot Composed Image Retrieval (ZS-CIR) は、サンプルをトレーニングすることなく、合成クエリから情報を統合してターゲット画像を取得することを目的としている。
我々は,ZS-CIRのためのトレーニングフリーフレームワークであるCoTMRを提案し,新しいChain-of-Thought(CoT)とマルチスケール推論を提案する。
論文 参考訳(メタデータ) (2025-02-28T08:12:23Z) - Deep Multimodal Collaborative Learning for Polyp Re-Identification [4.4028428688691905]
大腸内視鏡によるポリープ再同定は、大きなギャラリーの同じポリープと異なるカメラで撮影された異なるビューの画像とを一致させることを目的としている。
ImageNetデータセットでトレーニングされたCNNモデルを直接適用する従来のオブジェクトReIDの手法は、不満足な検索性能をもたらす。
本稿では,ポリプ再同定のためのDMCLという新しい多モーダル協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-12T04:05:19Z) - Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。