論文の概要: CPPO: Contrastive Perception for Vision Language Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.00501v1
- Date: Thu, 01 Jan 2026 22:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.478474
- Title: CPPO: Contrastive Perception for Vision Language Policy Optimization
- Title(参考訳): CPPO:ビジョン言語政策最適化のための対照的な認識
- Authors: Ahmad Rezaei, Mohsen Gholami, Saeed Ranjbar Alvar, Kevin Cannons, Mohammad Asiful Hossain, Zhou Weimin, Shunbo Zhou, Yong Zhang, Mohammad Akbari,
- Abstract要約: CPPO (Contrastive Perception Policy Optimization) は、視覚言語モデルを微調整する手法である。
摂動入力画像の下でモデル出力のエントロピーシフトによって知覚トークンを検出する。
次に、情報保存摂動下での一貫性と情報除去時の感度を強制するコントラスト知覚損失(Contrastive Perception Loss, CPL)を用いてRL目的関数を拡張する。
- 参考スコア(独自算出の注目度): 15.695586206709566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CPPO, a Contrastive Perception Policy Optimization method for finetuning vision-language models (VLMs). While reinforcement learning (RL) has advanced reasoning in language models, extending it to multimodal reasoning requires improving both the perception and reasoning aspects. Prior works tackle this challenge mainly with explicit perception rewards, but disentangling perception tokens from reasoning tokens is difficult, requiring extra LLMs, ground-truth data, forced separation of perception from reasoning by policy model, or applying rewards indiscriminately to all output tokens. CPPO addresses this problem by detecting perception tokens via entropy shifts in the model outputs under perturbed input images. CPPO then extends the RL objective function with a Contrastive Perception Loss (CPL) that enforces consistency under information-preserving perturbations and sensitivity under information-removing ones. Experiments show that CPPO surpasses previous perception-rewarding methods, while avoiding extra models, making training more efficient and scalable.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)の微調整のためのコントラスト知覚ポリシー最適化手法であるCPPOを紹介する。
強化学習(RL)は言語モデルにおいて高度な推論を持つが、マルチモーダル推論に拡張するには知覚と推論の両方の改善が必要である。
先行研究は、主に明示的な認識報酬によってこの課題に取り組むが、推論トークンから認識トークンを遠ざけることは困難であり、余分なLCM、地味なデータ、ポリシーモデルによる推論からの認識の分離、あるいは全ての出力トークンに不特定に報酬を適用することが必要であった。
CPPOは、摂動入力画像下でのモデル出力のエントロピーシフトによって知覚トークンを検出することでこの問題に対処する。
CPPOは、情報保存摂動下での一貫性と情報除去下での感度を強制するコントラスト知覚損失(Contrastive Perception Loss, CPL)を用いてRL目的関数を拡張した。
実験の結果、CPPOは従来の知覚回帰手法を超越し、余分なモデルを回避し、トレーニングをより効率的かつスケーラブルにすることが示された。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Thinking with Deltas: Incentivizing Reinforcement Learning via Differential Visual Reasoning Policy [75.66913260900726]
検証可能なリワードによる強化学習は、大規模言語モデルにおいてかなり高度な推論能力を持っている。
既存のパラダイムは、テキスト中心の成果報酬によって推進され、モデルが視覚的知覚をバイパスすることを奨励します。
我々はtextbfDifferential Visual Reasoning Policy によって駆動されるフレームワーク Deltas を用いた textbfThinking を提案する。
論文 参考訳(メタデータ) (2026-01-11T08:25:34Z) - Perceptual-Evidence Anchored Reinforced Learning for Multimodal Reasoning [29.78411369746505]
PEARLは二重ブランチの知覚推論の相乗効果であり、視覚的証拠に明示的に固定することで多モーダル推論を強化する。
PEARLはマルチモーダル推論ベンチマークにおいて、ベースラインよりも+9.7%改善し、MathVerseではGRPOよりも+6.6%向上した。
論文 参考訳(メタデータ) (2025-11-23T13:15:58Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization [11.381262184752234]
本稿では,優先最適化に基づくLVLMの新たな敵防衛戦略であるAdPOを提案する。
提案手法は, クリーンな入力に対して正規出力を生成するためのモデルの嗜好を高めることを目的として, 優先最適化問題として, 対人訓練を再構成するものである。
より小さなLVLMのトレーニングは,ベースライン法に匹敵する効率を維持しつつ,競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2025-04-02T13:43:21Z) - PerPO: Perceptual Preference Optimization via Discriminative Rewarding [25.06349916829479]
PerPOは、生成的事前学習型マルチモーダル言語モデル(MLLM)における視覚的識別問題に対処する知覚アライメント手法である。
MLLMを人間の視覚的知覚プロセスと整合させるため、PerPOは識別報酬を用いて様々なネガティブサンプルを収集し、その後リストワイドな選好最適化によってそれらをランク付けする。
PerPOは、生成強度を維持しながらMLLMの視覚的識別能力を著しく向上し、画像-無条件報酬ハッキングを緩和し、視覚タスク間の一貫したパフォーマンスを確保する。
論文 参考訳(メタデータ) (2025-02-05T11:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。