論文の概要: Visual-RFT: Visual Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2503.01785v1
- Date: Mon, 03 Mar 2025 18:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:11.150006
- Title: Visual-RFT: Visual Reinforcement Fine-Tuning
- Title(参考訳): Visual-RFT: Visual Reinforcement Fine-Tuning
- Authors: Ziyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang,
- Abstract要約: OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。
Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
- 参考スコア(独自算出の注目度): 75.20572976629646
- License:
- Abstract: Reinforcement Fine-Tuning (RFT) in Large Reasoning Models like OpenAI o1 learns from feedback on its answers, which is especially useful in applications when fine-tuning data is scarce. Recent open-source work like DeepSeek-R1 demonstrates that reinforcement learning with verifiable reward is one key direction in reproducing o1. While the R1-style model has demonstrated success in language models, its application in multi-modal domains remains under-explored. This work introduces Visual Reinforcement Fine-Tuning (Visual-RFT), which further extends the application areas of RFT on visual tasks. Specifically, Visual-RFT first uses Large Vision-Language Models (LVLMs) to generate multiple responses containing reasoning tokens and final answers for each input, and then uses our proposed visual perception verifiable reward functions to update the model via the policy optimization algorithm such as Group Relative Policy Optimization (GRPO). We design different verifiable reward functions for different perception tasks, such as the Intersection over Union (IoU) reward for object detection. Experimental results on fine-grained image classification, few-shot object detection, reasoning grounding, as well as open-vocabulary object detection benchmarks show the competitive performance and advanced generalization ability of Visual-RFT compared with Supervised Fine-tuning (SFT). For example, Visual-RFT improves accuracy by $24.3\%$ over the baseline in one-shot fine-grained image classification with around 100 samples. In few-shot object detection, Visual-RFT also exceeds the baseline by $21.9$ on COCO's two-shot setting and $15.4$ on LVIS. Our Visual-RFT represents a paradigm shift in fine-tuning LVLMs, offering a data-efficient, reward-driven approach that enhances reasoning and adaptability for domain-specific tasks.
- Abstract(参考訳): OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学習する。
DeepSeek-R1のような最近のオープンソース作業は、検証可能な報酬による強化学習が、o1を再現する上で重要な方向であることを示している。
R1スタイルのモデルは言語モデルで成功したが、マルチモーダルドメインでの応用はいまだ検討されていない。
この研究は、視覚タスクにおけるRFTの適用領域をさらに拡張するVisual Reinforcement Fine-Tuning (Visual-RFT)を導入している。
具体的には、まずLVLM(Large Vision-Language Models)を用いて、各入力に対する推論トークンと最終回答を含む複数の応答を生成し、次に提案した視覚認識検証報酬関数を用いて、グループ相対ポリシー最適化(GRPO)のようなポリシー最適化アルゴリズムを用いてモデルを更新する。
我々は、物体検出のためのIoU(Intersection over Union)報酬など、異なる知覚タスクに対する検証可能な報酬関数を設計する。
細粒度画像分類, 少数ショット物体検出, 推論グラウンド化, およびオープン語彙オブジェクト検出ベンチマークの結果は, スーパービジョンファインチューニング(SFT)と比較して, Visual-RFTの競合性能と高度な一般化能力を示している。
例えば、Visual-RFTは1ショットのきめ細かい画像分類において、ベースラインに対して24.3\%の精度を約100サンプルで改善している。
数ショットのオブジェクト検出では、Visual-RFTはCOCOの2ショット設定で21.9ドル、LVISで15.4ドルを超える。
我々のVisual-RFTは微調整LVLMのパラダイムシフトであり、ドメイン固有のタスクに対する推論と適応性を高めるデータ効率、報酬駆動型アプローチを提供する。
関連論文リスト
- VisPath: Automated Visualization Code Synthesis via Multi-Path Reasoning and Feedback-Driven Optimization [13.964412839566293]
VisPathは、不特定クエリを処理するために特別に設計されたマルチステージフレームワークである。
最初は初期クエリを使用して、Chain-of-Thought(CoT)プロンプトを通じて、さまざまな変更クエリを生成する。
洗練されたクエリは、候補の視覚化スクリプトを生成するために使用され、複数のイメージを生成するために実行される。
論文 参考訳(メタデータ) (2025-02-16T14:09:42Z) - OpenRFT: Adapting Reasoning Foundation Model for Domain-specific Tasks with Reinforcement Fine-Tuning [21.931666005603553]
OpenAIは先日、Reinforcement Fine-Tuning (RFT)を導入した。
本稿では,ドメイン固有タスクに対する一般推論モデルを微調整するemphOpenRFTを提案する。
評価はSciKnowEval上で行われ、OpenRFTは各タスクに対してわずか100ドルのドメイン固有のサンプルで顕著なパフォーマンス向上を達成している。
論文 参考訳(メタデータ) (2024-12-22T04:21:30Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Revisiting Few-Shot Object Detection with Vision-Language Models [49.79495118650838]
我々は、最近の基礎視覚言語モデル(VLM)の文脈で、少数ショットオブジェクト検出(FSOD)のタスクを再考する。
我々は,任意の外部データ上で事前学習された検出器を評価する新しいベンチマークプロトコルであるFoundational FSODを提案する。
CVPR 2024 Foundational FSOD コンペティションについて論じ,コミュニティからの洞察を共有した。
論文 参考訳(メタデータ) (2023-12-22T07:42:00Z) - Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。
提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-11-17T08:17:49Z) - Zero-shot Visual Relation Detection via Composite Visual Cues from Large
Language Models [44.60439935450292]
本稿では,ゼロショット視覚認識のための新しい手法であるRECODEを提案する。
各述語カテゴリを主題、対象、空間構成要素に分解する。
異なる視覚的手がかりは、異なる視点から類似した関係カテゴリの識別可能性を高める。
論文 参考訳(メタデータ) (2023-05-21T14:40:48Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - RPT++: Customized Feature Representation for Siamese Visual Tracking [16.305972000224358]
視覚的トラッキングの性能向上は,有意な領域から抽出された特徴が,より認識可能な視覚的パターンを提供するため,限られていると我々は主張する。
タスク固有の視覚パターンを捉えるために,極性プーリングと極性プーリングという2つの特徴抽出器を提案する。
本稿では,タスク固有の特徴表現の有効性を,最近の進行トラッカーRTPに組み込むことで示す。
論文 参考訳(メタデータ) (2021-10-23T10:58:57Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。