論文の概要: REC-RL: Referring expression counting via Gaussian and range-based reward optimization
- arxiv url: http://arxiv.org/abs/2605.16460v1
- Date: Fri, 15 May 2026 07:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.492907
- Title: REC-RL: Referring expression counting via Gaussian and range-based reward optimization
- Title(参考訳): REC-RL: ガウスとレンジに基づく報酬最適化による表現カウントの参照
- Authors: Hui Liu, Yunlai Teng, Kunlong Bai, Pengfei Qi, Haotian Yan, Liang Li, Junlan Feng,
- Abstract要約: Referring Expression counting (REC)は、コンテキスト対応の視覚的推論を必要とする意図駆動型タスクである。
本稿では,視覚的推論過程を明示的に最適化する思考範囲探索パラダイムを導入した強化学習フレームワークREC-RLを提案する。
- 参考スコア(独自算出の注目度): 28.33789155610508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring expression counting (REC) is an intention-driven task that requires context-aware visual reasoning. While recent vision-language models incorporate language for visual understanding, most existing REC methods rely on rulebased reinforcement learning with rewards focused primarily on final accuracy, overlooking the quality of intermediate reasoning. We propose REC-RL, a reinforcement learning framework that introduces a think-range-answer paradigm to explicitly optimize the visual reasoning process. RECRL employs Group Relative Policy Optimization and two lightweight rewards: an accuracy reward that combines range-based interval supervision with Gaussian-based precision guidance, and a format reward that enforces structured outputs. By modeling intermediate focus prediction as internal decision-making, REC-RL avoids additional annotations and better aligns with human perception. Extensive experiments demonstrate consistent improvements over strong baselines and robust generalization across benchmarks.
- Abstract(参考訳): Referring Expression counting (REC)は、コンテキスト対応の視覚的推論を必要とする意図駆動型タスクである。
最近の視覚言語モデルは視覚的理解のための言語を取り入れているが、既存のREC手法の多くは規則に基づく強化学習に依存しており、中間的推論の質を見越して最終的な精度に重点を置いている。
本稿では,視覚的推論過程を明示的に最適化する思考範囲探索パラダイムを導入した強化学習フレームワークREC-RLを提案する。
RECRLは、グループ相対ポリシー最適化と、2つの軽量報酬、すなわち、範囲ベースの間隔管理とガウスベースの精度ガイダンスを組み合わせた精度報酬と、構造化された出力を強制する形式報酬である。
中間焦点予測を内部決定としてモデル化することにより、REC-RLは追加のアノテーションを避け、人間の知覚との整合性を向上する。
大規模な実験では、強いベースラインに対する一貫した改善とベンチマーク間の堅牢な一般化が示されている。
関連論文リスト
- Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time [51.256131853751754]
本研究では,多次元的批判を明示的に生成するために報酬モデルを教えることで,受動的評価器から能動的最適化ツールへ変換することを示す。
提案手法では, 嗜好データから高品質な論理を復元する原理的フレームワークであるpreference-Anchored Rationalization (PARROT) を導入する。
その結果、RationalRewards (8B) は、オープンソース報酬モデル間の最先端の好み予測を実現する。
論文 参考訳(メタデータ) (2026-04-13T15:38:09Z) - Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models [35.97638821723309]
KAWHIは、構造化された視覚情報を均一な報酬ポリシー最適化手法に明示的に組み込む、プラグアンドプレイ報酬再重み付け機構である。
階層的幾何的アグリゲーションにより意味的に有意な領域を適応的に局在させ、構造化属性を介して視覚クリティカルなアテンションヘッドを識別し、段落レベルの信用再配置を行い、空間的な視覚的証拠を意味的に決定的な推論ステップと整合させる。
論文 参考訳(メタデータ) (2026-03-28T18:40:14Z) - RASPRef: Retrieval-Augmented Self-Supervised Prompt Refinement for Large Reasoning Models [0.0]
本稿では,人間のアノテーションやタスク固有の監督を必要とせず,プロンプトを改善するフレームワークであるRetrieval-Augmented Self-Supervised Prompt Refinement (RASPRef)を紹介する。
RASPRefは、プロンプトを最適化ターゲットとして直接扱い、反復的な検索誘導処理により改善する。
論文 参考訳(メタデータ) (2026-03-27T21:49:21Z) - Alternating Reinforcement Learning with Contextual Rubric Rewards [2.1172256884504588]
Reinforcement Learning with Rewards (RLRR)は、従来の強化学習を人間のフィードバックから拡張するフレームワークである。
RLRRの既存のアプローチは、固定重み付きスカラー報酬に線形に圧縮されたベクトル報酬に限られる。
本研究は,報酬アグリゲーションの限界を克服するために,報酬付き強化学習(ARL-RR)を提案する。
論文 参考訳(メタデータ) (2026-03-04T04:18:39Z) - Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。
RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2026-01-30T15:07:06Z) - Coupled Variational Reinforcement Learning for Language Model General Reasoning [83.82392089177841]
変分推論と強化学習を橋渡しするために,textitbCoupled bVari bReinforcement bLearning (CoVRL)を提案する。
CoVRLはベースモデルよりも12.4%向上し、最先端の検証不要なRLベースラインよりも2.3%向上した。
論文 参考訳(メタデータ) (2025-12-14T07:03:51Z) - AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。
AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文 参考訳(メタデータ) (2025-08-04T07:47:38Z) - Direct Reasoning Optimization: LLMs Can Reward And Refine Their Own Reasoning for Open-Ended Tasks [6.881699020319577]
大規模言語モデル(LLM)を微調整するための強化学習フレームワークであるダイレクト推論最適化(DRO)を提案する。
DROは新たな報酬信号、Reasoning Reflection Reward (R3)によって誘導される。
DROは、オープンエンドドメインと構造化ドメインの両方にわたって広く適用されながら、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-16T10:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。