論文の概要: GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.03403v1
- Date: Tue, 05 May 2026 06:23:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.798698
- Title: GRPO-TTA: Test-Time Visual Tuning for Vision-Language Models via GRPO-Driven Reinforcement Learning
- Title(参考訳): GRPO-TTA: GRPO-Driven Reinforcement Learningによる視覚言語モデルのテスト時間視覚チューニング
- Authors: Yujun Li, Hongyuan Zhang, Yuan Yuan,
- Abstract要約: Group Relative Policy Optimization (GRPO)は、大規模な言語モデルとビジョン言語モデルの訓練後において、強力なパフォーマンスを示している。
我々は,テスト時間適応(GRPO-TTA)のためのグループ相対ポリシー最適化を提案し,GRPOをTTA設定に適応させる。
GRPO-TTAは既存のテスト時間適応法より一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 15.828209242407047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) has recently shown strong performance in post-training large language models and vision-language models. It raises a question of whether the GRPO also significantly promotes the test-time adaptation (TTA) of vision language models. In this paper, we propose Group Relative Policy Optimization for Test-Time Adaptation (GRPO-TTA), which adapts GRPO to the TTA setting by reformulating class-specific prompt prediction as a group-wise policy optimization problem. Specifically, we construct output groups by sampling top-K class candidates from CLIP similarity distributions, enabling probability-driven optimization without access to ground-truth labels. Moreover, we design reward functions tailored to test-time adaptation, including alignment rewards and dispersion rewards, to guide effective visual encoder tuning. Extensive experiments across diverse benchmarks demonstrate that GRPO-TTA consistently outperforms existing test-time adaptation methods, with notably larger performance gains under natural distribution shifts.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO)は、最近、大規模な言語モデルとビジョン言語モデルの訓練後において、強力なパフォーマンスを示している。
このことは、GRPOが視覚言語モデルのテスト時間適応(TTA)を著しく促進するかどうかという疑問を提起する。
本稿では,テスト時間適応のためのグループ相対ポリシー最適化(GRPO-TTA)を提案する。
具体的には、CLIP類似度分布からトップKクラス候補をサンプリングして出力グループを構築する。
さらに、アライメント報酬や分散報酬を含むテスト時間適応に適した報酬関数を設計し、効果的なビジュアルエンコーダチューニングを誘導する。
様々なベンチマークによる大規模な実験により、GRPO-TTAは既存のテスト時間適応法より一貫して優れており、特に自然分布シフト下での性能向上が顕著である。
関連論文リスト
- Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment [13.085014101959118]
我々は、バッチ統計から有利な推定を分離する新しいアライメントフレームワークであるPersonalized GRPOを紹介する。
我々はP-GRPOを多種多様なタスクで評価し、標準のGRPOよりも高速な収束と高い報酬を達成することを発見した。
論文 参考訳(メタデータ) (2026-02-17T19:00:43Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - GRPO-RM: Fine-Tuning Representation Models via GRPO-Driven Reinforcement Learning [52.16150076582931]
我々は、表現モデル(GRPO-RM)のためのグループ相対ポリシー最適化を提案する。
我々の手法は,大規模言語モデル(LLM)におけるトークンシーケンスサンプリングを機能的に置き換えるための事前定義された出力セットを確立する。
特殊報酬関数は表現モデルの性質を満たすように設計されている。
論文 参考訳(メタデータ) (2025-11-19T09:19:39Z) - VerIPO: Cultivating Long Reasoning in Video-LLMs via Verifier-Gudied Iterative Policy Optimization [59.39976343879587]
VerIPOは、深く長期的な推論チェーンを生成するためのビデオLLMの能力を徐々に改善することを目指している。
トレーニングループはGRPOの拡張検索とDPOのターゲット最適化の恩恵を受けている。
我々の訓練されたモデルは、大規模命令調整ビデオ-LLMの直接推定を超えている。
論文 参考訳(メタデータ) (2025-05-25T06:41:28Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。