論文の概要: CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward
- arxiv url: http://arxiv.org/abs/2504.03724v1
- Date: Mon, 31 Mar 2025 03:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-13 05:54:42.593609
- Title: CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward
- Title(参考訳): CrowdVLM-R1: Fuzzy Group Relative Policy Reward を用いたクラウドカウント用言語モデルの拡張
- Authors: Zhiqiang Wang, Pengbin Feng, Yanbin Lin, Shuzhang Cai, Zongao Bian, Jinghua Yan, Xingquan Zhu,
- Abstract要約: Fuzzy Group Relative Policy Reward (FGRPR)
本稿では,グループ相対政策最適化とファジィ報酬関数を統合し,学習効率を向上させる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.669961015248932
- License:
- Abstract: We propose Fuzzy Group Relative Policy Reward (FGRPR), a novel framework that integrates Group Relative Policy Optimization (GRPO) with a fuzzy reward function to enhance learning efficiency. Unlike the conventional binary 0/1 accuracy reward, our fuzzy reward model provides nuanced incentives, encouraging more precise outputs. Experimental results demonstrate that GRPO with a standard 0/1 accuracy reward underperforms compared to supervised fine-tuning (SFT). In contrast, FGRPR, applied to Qwen2.5-VL(3B and 7B), surpasses all baseline models, including GPT4o, LLaMA2(90B), and SFT, across five in-domain datasets. On an out-of-domain dataset, FGRPR achieves performance comparable to SFT but excels when target values are larger, as its fuzzy reward function assigns higher rewards to closer approximations. This approach is broadly applicable to tasks where the precision of the answer is critical. Code and data: https://github.com/yeyimilk/CrowdVLM-R1
- Abstract(参考訳): 本稿では,FGRPR(Fuzzy Group Relative Policy Reward)を提案する。このフレームワークは,GGRPO(Group Relative Policy Optimization)とファジィ報酬関数を統合し,学習効率を向上させる。
従来のバイナリ0/1精度報酬とは異なり、ファジィ報酬モデルではニュアンス付きインセンティブを提供し、より正確な出力を奨励する。
実験の結果,標準0/1精度のGRPOは教師付き微調整(SFT)に比べて性能が劣ることがわかった。
対照的に、Qwen2.5-VL(3Bと7B)に適用されたFGRPRは、5つのドメイン内のデータセットにわたって、GPT4o、LLaMA2(90B)、SFTを含むすべてのベースラインモデルを上回る。
ドメイン外のデータセットでは、FGRPRはSFTに匹敵するパフォーマンスを達成しているが、ターゲット値が大きくなると性能が向上する。
このアプローチは、答えの精度が重要なタスクに広く適用されます。
コードとデータ:https://github.com/yeyimilk/CrowdVLM-R1
関連論文リスト
- VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。
また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。
ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文 参考訳(メタデータ) (2024-12-28T07:38:23Z) - Adaptive Principal Components Allocation with the $\ell_{2,g}$-regularized Gaussian Graphical Model for Efficient Fine-Tuning Large Models [7.6656660956453635]
ガウス図形モデル(GGM)に基づく高速ファインニング(PEFT)手法を提案する。
提案手法の有効性を実証し、トレーニング可能なパラメータを著しく少なくして競合性能を実現する。
論文 参考訳(メタデータ) (2024-12-11T18:11:21Z) - RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。
本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。
例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文 参考訳(メタデータ) (2024-07-02T17:59:17Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - PRDP: Proximal Reward Difference Prediction for Large-Scale Reward Finetuning of Diffusion Models [13.313186665410486]
リワード微調整は、ファンデーションモデルを下流の目標と整合させるための有望なアプローチとして現れています。
既存の報酬微調整手法は、大規模なプロンプトデータセットにおける不安定性によって制限される。
拡散モデルに対する安定なブラックボックス報酬の微調整を可能にするためのPRDP(Proximal Reward difference Prediction)を提案する。
論文 参考訳(メタデータ) (2024-02-13T18:58:16Z) - Vanishing Gradients in Reinforcement Finetuning of Language Models [14.750767288441017]
本研究は、強化微細化(RFT)における基本最適化障害を特定する。
モデル下での報酬標準偏差が小さい場合には,入力に対する期待勾配が消えることを示す。
次に、報酬標準偏差の小さいため、失効する勾配が一般的であり、有害であることを示す。
論文 参考訳(メタデータ) (2023-10-31T17:59:05Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Nonconvex Stochastic Bregman Proximal Gradient Method with Application to Deep Learning [9.202586157819693]
非合成対象函数のロバスト性を最小化する二次法は、典型的には微分可能部分のリプシッツ滑らか性に依存する。
本稿では適応性のみを考慮したBregman(SBPG)手法のファミリーを提案する。
MSBPGは運動量に基づく変種であり、ミニバッチサイズ要求を緩和することで収束感度を高める。
論文 参考訳(メタデータ) (2023-06-26T08:54:46Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。