論文の概要: HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.06270v1
- Date: Fri, 06 Mar 2026 13:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.795695
- Title: HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models
- Title(参考訳): HiPP-Prune:視覚言語モデルのための階層的推論型構造化プルーニング
- Authors: Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez,
- Abstract要約: HiPP-Pruneは階層的な好み条件付き構造化プルーニングフレームワークであり、プルーニングを条件付きリソース割り当てとして扱う。
HiPP-Pruneは、決定を全体的なスパーシティ予算と階層的なアロケーションに分解することで、プランレベルの決定を行う。
- 参考スコア(独自算出の注目度): 2.1418081649543157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning vision-language models (VLMs) for efficient deployment is challenging because compression can affect not only task utility but also visual grounding, often amplifying object hallucinations even at the same sparsity level. We present HiPP-Prune, a hierarchical preference-conditioned structured pruning framework that treats pruning as conditional resource allocation under multiple objectives. HiPP-Prune makes plan-level decisions: a single policy invocation outputs a global pruning blueprint by factorizing decisions into an overall sparsity budget and a layer-wise allocation, enabling queryable trade-offs via a user-specified preference vector. To account for VLM-specific failure modes, our policy state integrates a visual sensitivity signal derived from attention flow between vision tokens and language hidden states, discouraging over-pruning of vision-critical layers that facilitate cross-modal fusion. We optimize pruning plans with plan-level Group Relative Policy Optimization (GRPO) under a multi-objective return that combines task utility, hallucination robustness (POPE), compression, and a synaptic-flow-inspired stability proxy to reduce unproductive exploration in high-sparsity regimes. Experiments on LLaVA with POPE and ScienceQA demonstrate that HiPP-Prune discovers diverse non-dominated pruning plans and provides controllable robustness--utility trade-offs under matched sparsity budgets.
- Abstract(参考訳): 視覚言語モデル(VLM)の効率的な配置は、圧縮がタスクユーティリティだけでなく視覚的接地にも影響し、同じ空間レベルでもオブジェクト幻覚を増幅する可能性があるため、困難である。
複数目的の条件付き資源割り当てとしてプルーニングを扱う階層的嗜好条件付き構造化プルーニングフレームワークであるHiPP-Pruneを提案する。
HiPP-Pruneは計画レベルの決定を行う: 単一のポリシー呼び出しは、決定を全体空間予算と階層単位のアロケーションに分解することで、グローバルプルーニングブループリントを出力し、ユーザが指定した選好ベクトルを介してクエリ可能なトレードオフを可能にする。
VLM固有の障害モードを考慮し、我々のポリシー状態は、視覚トークンと言語隠れ状態の間の注意の流れから導かれる視覚感度信号を統合する。
計画レベルのグループ相対政策最適化(GRPO)によるプランニング計画の最適化を行い,タスクユーティリティ,幻覚的ロバスト性(POPE),圧縮,シナプス・フローにインスパイアされた安定性プロキシを組み合わせた多目的リターンを行い,非生産的探索の削減を図る。
POPEとScienceQAによるLLaVAの実験では、HiPP-Pruneは多様な非支配的なプルーニング計画を発見し、制御可能な堅牢性を提供する。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - PGPO: Enhancing Agent Reasoning via Pseudocode-style Planning Guided Preference Optimization [58.465778756331574]
本稿では,効果的なエージェント学習のためのPGPOと呼ばれる疑似コード型計画優先最適化手法を提案する。
2つの計画指向の報酬により、PGPOは、高品質なPコードプランを生成するLLMエージェントの能力をさらに強化する。
実験により、PGPOは代表エージェントベンチマークよりも優れた性能を示し、現在のリードベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2025-06-02T09:35:07Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。