論文の概要: CPPO: Contrastive Perception for Vision Language Policy Optimization
- arxiv url: http://arxiv.org/abs/2601.00501v1
- Date: Thu, 01 Jan 2026 22:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.478474
- Title: CPPO: Contrastive Perception for Vision Language Policy Optimization
- Title(参考訳): CPPO:ビジョン言語政策最適化のための対照的な認識
- Authors: Ahmad Rezaei, Mohsen Gholami, Saeed Ranjbar Alvar, Kevin Cannons, Mohammad Asiful Hossain, Zhou Weimin, Shunbo Zhou, Yong Zhang, Mohammad Akbari,
- Abstract要約: CPPO (Contrastive Perception Policy Optimization) は、視覚言語モデルを微調整する手法である。
摂動入力画像の下でモデル出力のエントロピーシフトによって知覚トークンを検出する。
次に、情報保存摂動下での一貫性と情報除去時の感度を強制するコントラスト知覚損失(Contrastive Perception Loss, CPL)を用いてRL目的関数を拡張する。
- 参考スコア(独自算出の注目度): 15.695586206709566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CPPO, a Contrastive Perception Policy Optimization method for finetuning vision-language models (VLMs). While reinforcement learning (RL) has advanced reasoning in language models, extending it to multimodal reasoning requires improving both the perception and reasoning aspects. Prior works tackle this challenge mainly with explicit perception rewards, but disentangling perception tokens from reasoning tokens is difficult, requiring extra LLMs, ground-truth data, forced separation of perception from reasoning by policy model, or applying rewards indiscriminately to all output tokens. CPPO addresses this problem by detecting perception tokens via entropy shifts in the model outputs under perturbed input images. CPPO then extends the RL objective function with a Contrastive Perception Loss (CPL) that enforces consistency under information-preserving perturbations and sensitivity under information-removing ones. Experiments show that CPPO surpasses previous perception-rewarding methods, while avoiding extra models, making training more efficient and scalable.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)の微調整のためのコントラスト知覚ポリシー最適化手法であるCPPOを紹介する。
強化学習(RL)は言語モデルにおいて高度な推論を持つが、マルチモーダル推論に拡張するには知覚と推論の両方の改善が必要である。
先行研究は、主に明示的な認識報酬によってこの課題に取り組むが、推論トークンから認識トークンを遠ざけることは困難であり、余分なLCM、地味なデータ、ポリシーモデルによる推論からの認識の分離、あるいは全ての出力トークンに不特定に報酬を適用することが必要であった。
CPPOは、摂動入力画像下でのモデル出力のエントロピーシフトによって知覚トークンを検出することでこの問題に対処する。
CPPOは、情報保存摂動下での一貫性と情報除去下での感度を強制するコントラスト知覚損失(Contrastive Perception Loss, CPL)を用いてRL目的関数を拡張した。
実験の結果、CPPOは従来の知覚回帰手法を超越し、余分なモデルを回避し、トレーニングをより効率的かつスケーラブルにすることが示された。
関連論文リスト
- Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。