Fugu-MT 論文翻訳(概要): CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward

論文の概要: CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward

arxiv url: http://arxiv.org/abs/2504.03724v1
Date: Mon, 31 Mar 2025 03:57:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 11:28:35.692155
Title: CrowdVLM-R1: Expanding R1 Ability to Vision Language Model for Crowd Counting using Fuzzy Group Relative Policy Reward
Title（参考訳）: CrowdVLM-R1: Fuzzy Group Relative Policy Reward を用いたクラウドカウント用言語モデルの拡張
Authors: Zhiqiang Wang, Pengbin Feng, Yanbin Lin, Shuzhang Cai, Zongao Bian, Jinghua Yan, Xingquan Zhu,
Abstract要約: Fuzzy Group Relative Policy Reward (FGRPR) 本稿では,グループ相対政策最適化とファジィ報酬関数を統合し,学習効率を向上させる新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 6.669961015248932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Fuzzy Group Relative Policy Reward (FGRPR), a novel framework that integrates Group Relative Policy Optimization (GRPO) with a fuzzy reward function to enhance learning efficiency. Unlike the conventional binary 0/1 accuracy reward, our fuzzy reward model provides nuanced incentives, encouraging more precise outputs. Experimental results demonstrate that GRPO with a standard 0/1 accuracy reward underperforms compared to supervised fine-tuning (SFT). In contrast, FGRPR, applied to Qwen2.5-VL(3B and 7B), surpasses all baseline models, including GPT4o, LLaMA2(90B), and SFT, across five in-domain datasets. On an out-of-domain dataset, FGRPR achieves performance comparable to SFT but excels when target values are larger, as its fuzzy reward function assigns higher rewards to closer approximations. This approach is broadly applicable to tasks where the precision of the answer is critical. Code and data: https://github.com/yeyimilk/CrowdVLM-R1
Abstract（参考訳）: 本稿では,FGRPR(Fuzzy Group Relative Policy Reward)を提案する。このフレームワークは,GGRPO(Group Relative Policy Optimization)とファジィ報酬関数を統合し,学習効率を向上させる。従来のバイナリ0/1精度報酬とは異なり、ファジィ報酬モデルではニュアンス付きインセンティブを提供し、より正確な出力を奨励する。実験の結果,標準0/1精度のGRPOは教師付き微調整(SFT)に比べて性能が劣ることがわかった。対照的に、Qwen2.5-VL(3Bと7B)に適用されたFGRPRは、5つのドメイン内のデータセットにわたって、GPT4o、LLaMA2(90B)、SFTを含むすべてのベースラインモデルを上回る。ドメイン外のデータセットでは、FGRPRはSFTに匹敵するパフォーマンスを達成しているが、ターゲット値が大きくなると性能が向上する。このアプローチは、答えの精度が重要なタスクに広く適用されます。コードとデータ:https://github.com/yeyimilk/CrowdVLM-R1

関連論文リスト

Geometric-Mean Policy Optimization [122.95205388291987]
グループ相対政策最適化(GRPO)の安定化版を提案する。算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。 GMPO-7Bは安定性の向上に加えて、複数の数学ベンチマークでは平均4.1%、マルチモーダル推論ベンチマークでは1.4%でGRPOを上回っている。
論文参考訳（メタデータ） (2025-07-28T09:54:05Z)
R1-Track: Direct Application of MLLMs to Visual Object Tracking via Reinforcement Learning [5.59181512260003]
単一のオブジェクト追跡は、その後のビデオフレームにおけるターゲットのスケールを連続的にローカライズし、推定することを目的としている。 Qwen2.5-VLはイメージペア間のテンプレートマッチングに苦労している。グループ相対政策最適化(GRPO)強化学習法を用いてQwen2.5-VLを微調整した。結果として得られたR1-Trackは、GOT-10kベンチマークで顕著な性能を達成した。
論文参考訳（メタデータ） (2025-06-27T07:41:15Z)
TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [6.711303205726428]
近年のVision-Language-Actionモデルの進歩は、大規模なデータセットで事前訓練された場合に、多様なシーン、タスク、ロボットプラットフォームにまたがる強力な一般化能力を示している。これらのモデルは、静的な軌跡データセットを使用して、ほとんど監督された微調整(SFT)に依存する新しい環境において、タスク固有の微調整を必要とする。本稿では,TGRPO(Trjectory-wise Group Relative Policy Optimization)法を提案する。
論文参考訳（メタデータ） (2025-06-10T04:27:49Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization [55.06360285372418]
グループ相対政策最適化は大規模推論モデル(LRM)の強化学習手法である本研究では,2次報酬設定の下でGRPOの目的を解析し,質問レベルの難易度バイアスの固有の制限を明らかにする。差別学習の原則を基礎として, LRMの強化のための新たな差別的制約付き最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-18T11:08:32Z)
Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning [11.708197376569016]
グループ相対政策最適化(GRPO)は、グループ内のすべての出力に対して平均報酬をベースラインとして減算することで、各出力の利点を計算するために提案される。これは、非常にノイズの多い報奨を伴う環境において、不正確な有利な見積もりをもたらし、バイアスをもたらす可能性がある。本稿では,KRPO(Kalman Filter Enhanced Group Relative Policy Optimization)と呼ばれるモデルを提案する。
論文参考訳（メタデータ） (2025-05-12T13:09:49Z)
Killing Two Birds with One Stone: Unifying Retrieval and Ranking with a Single Generative Recommendation Model [71.45491434257106]
Unified Generative Recommendation Framework (UniGRF)は、検索とランキングを単一の生成モデルに統合する新しいアプローチである。ステージ間コラボレーションを強化するため、UniGRFはランキング駆動エンハンサーモジュールを導入した。 UniGRFは、ベンチマークデータセット上で既存のモデルよりも大幅に優れています。
論文参考訳（メタデータ） (2025-04-23T06:43:54Z)
UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning [31.014515049981817]
ルールベースの強化学習は、グラフィックユーザインタフェース(GUI)アクション予測タスクのためのマルチモーダル大言語モデル(MLLM)の推論能力を高めることができる。我々はルールベースのアクション報酬を導入し、ポリシーベースのアルゴリズムによるモデル最適化を可能にした。実験の結果,提案したデータ効率モデルであるUI-R1-3Bは,ドメイン内(ID)タスクとドメイン外(OOD)タスクの両方を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-03-27T15:39:30Z)
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。 Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文参考訳（メタデータ） (2025-03-09T20:06:45Z)
Multi-Fidelity Policy Gradient Algorithms [23.62115512789292]
強化学習アルゴリズムには大量のデータが必要です低忠実度シミュレータは、直接sim-to-real転送するには大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。我々は、ターゲット環境から少量のデータと大量の低忠実度シミュレーションデータとを混合するRLフレームワークである多忠実度ポリシー勾配(Gs)を提案する。
論文参考訳（メタデータ） (2025-03-07T18:58:23Z)
Visual-RFT: Visual Reinforcement Fine-Tuning [75.20572976629646]
OpenAI o1のような大規模推論モデルにおける強化ファインチューニング(RFT)は、回答に対するフィードバックから学ぶ。 Visual-RFTはさらに、視覚タスクにおけるRTTの適用領域を拡張している。
論文参考訳（メタデータ） (2025-03-03T18:16:32Z)
VELoRA: A Low-Rank Adaptation Approach for Efficient RGB-Event based Recognition [54.27379947727035]
本稿では,RGBイベントに基づく分類のために,事前学習した基盤視覚モデルに適応するための新しいPEFT戦略を提案する。また、2重モードのフレーム差は、フレーム差バックボーンネットワークを介してモーションキューをキャプチャすると考えられている。ソースコードと事前トレーニングされたモデルはurlhttps://github.com/Event-AHU/VELoRAでリリースされる。
論文参考訳（メタデータ） (2024-12-28T07:38:23Z)
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs [60.38044044203333]
大規模言語モデル(LLM)は、通常、検索拡張生成(RAG)において、レトリバーからトップkコンテキストを利用する。本稿では,RAGにおける文脈ランク付けと回答生成の両目的のために,単一のLLMをチューニング可能な新しい命令微調整フレームワークであるRanRAGを提案する。例えば、GPT-4-0613, GPT-4-turbo-2024-0409, ChatQA-1.5, RAGベンチマークの最先端性能を備えたオープンソースモデルなどである。
論文参考訳（メタデータ） (2024-07-02T17:59:17Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Vanishing Gradients in Reinforcement Finetuning of Language Models [14.750767288441017]
本研究は、強化微細化(RFT)における基本最適化障害を特定する。モデル下での報酬標準偏差が小さい場合には,入力に対する期待勾配が消えることを示す。次に、報酬標準偏差の小さいため、失効する勾配が一般的であり、有害であることを示す。
論文参考訳（メタデータ） (2023-10-31T17:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。