論文の概要: TTRV: Test-Time Reinforcement Learning for Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.06783v1
- Date: Wed, 08 Oct 2025 09:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.378852
- Title: TTRV: Test-Time Reinforcement Learning for Vision Language Models
- Title(参考訳): TTRV:視覚言語モデルのためのテスト時間強化学習
- Authors: Akshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza,
- Abstract要約: 強化学習における報酬信号を抽出する既存の方法は、ラベル付きデータと専用のトレーニング分割に依存するのが一般的である。
提案するTTRVは,ラベル付きデータを必要とせずに,推論時にモデルに適応することで視覚言語理解を向上させる。
このアプローチは、オブジェクト認識と視覚的質問応答(VQA)の両方で一貫して向上し、それぞれ52.4%と29.8%の改善、および16データセットで平均24.6%と10.0%のアップを実現している。
- 参考スコア(独自算出の注目度): 38.36757421304928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for extracting reward signals in Reinforcement Learning typically rely on labeled data and dedicated training splits, a setup that contrasts with how humans learn directly from their environment. In this work, we propose TTRV to enhance vision language understanding by adapting the model on the fly at inference time, without the need for any labeled data. Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework by designing rewards based on the frequency of the base model's output, while inferring on each test sample multiple times. Further, we also propose to control the diversity of the model's output by simultaneously rewarding the model for obtaining low entropy of the output empirical distribution. Our approach delivers consistent gains across both object recognition and visual question answering (VQA), with improvements of up to 52.4% and 29.8%, respectively, and average boosts of 24.6% and 10.0% across 16 datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining highly competitive on VQA, demonstrating that test-time reinforcement learning can match or exceed the strongest proprietary models. Finally, we find many interesting properties of test-time RL for VLMs: for example, even in extremely data-constrained scenarios, where adaptation is performed on a single randomly chosen unlabeled test example, TTRV still yields non-trivial improvements of up to 5.5% in recognition tasks.
- Abstract(参考訳): 強化学習における報酬信号を抽出する既存の方法は、通常、人間が環境から直接学習する方法とは対照的な、ラベル付きデータと専用のトレーニング分割に依存している。
本研究では,ラベル付きデータを必要とせず,推論時にモデルに適応させることで視覚言語理解を向上させるためのTTRVを提案する。
具体的には、基本モデルの出力周波数に基づいて報酬を設計し、各テストサンプルを複数回推測することで、GRPO(Group Relative Policy Optimization)フレームワークを強化する。
また,出力経験分布の低エントロピーを得るモデルに対して,同時に報酬を与えることにより,モデルの出力の多様性を制御することを提案する。
我々のアプローチは、オブジェクト認識と視覚的質問応答(VQA)の両方で一貫して向上し、最大52.4%と29.8%の改善、および16データセットで平均24.6%と10.0%のアップを実現している。注目すべきは、画像認識において、InternVL 8Bに適用されたTTRVは、GPT-4oを平均2.3%上回っており、VQAでは高い競争力を維持しながら、テスト時強化学習が最強のプロプライエタリモデルと一致または超えることを示す。
最後に、VLM のテスト時間 RL の興味深い特徴がいくつか見出される:例えば、ランダムに選択された1つの未ラベルのテスト例に対して適応が実行される極めてデータ制約のあるシナリオであっても、TTRV は認識タスクにおいて最大5.5%の非自明な改善をもたらす。
関連論文リスト
- Continuous Self-Improvement of Large Language Models by Test-time Training with Verifier-Driven Sample Selection [6.471199527741301]
VDS-TTT(Verifier-Driven Sample Selection for Test-Time Training)と呼ばれる新しいフレームワークを導入する。
学習した検証器を用いて、生成された応答のプールをスコアし、高いランクの擬似ラベル付き例からのみ選び、微調整を施す。
低ランクなLoRAアダプタパラメータのみを微調整し、適応効率と高速収束を確保する。
論文 参考訳(メタデータ) (2025-05-26T03:54:47Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - Gamified crowd-sourcing of high-quality data for visual fine-tuning [0.9487395978583629]
本稿では,大規模マルチモーダルモデルの視覚的チューニングのための高品質なデータをクラウドソースするフレームワークである Gamified Adversarial Prompting (GAP) を紹介する。
GAPは、データ収集プロセスをエンゲージメントゲームに変換し、モデルの知識のギャップをターゲットとする、きめ細かな、挑戦的な質問と回答を提供するようプレイヤーに動機付ける。
論文 参考訳(メタデータ) (2024-10-05T05:10:29Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - A Mixture of Exemplars Approach for Efficient Out-of-Distribution Detection with Foundation Models [0.0]
本稿では, 高品質で凍結, 事前訓練された基礎モデルを用いて, バックボーンをトレーニングする利点を最大化するためのOOD検出への効率的なアプローチを提案する。
MoLARは、OODサンプルの類似性と、データセットを表すために選択された小さなイメージの例を比較するだけで、強力なOOD検出性能を提供する。
論文 参考訳(メタデータ) (2023-11-28T06:12:28Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。