論文の概要: Poivre: Self-Refining Visual Pointing with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.23746v1
- Date: Sun, 28 Sep 2025 08:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.418501
- Title: Poivre: Self-Refining Visual Pointing with Reinforcement Learning
- Title(参考訳): Poivre: 強化学習による自己修正型ビジュアルポインティング
- Authors: Wenjie Yang, Zengfeng Huang,
- Abstract要約: 本稿では,視覚的ポインティングのための簡易かつ効果的な自己修正手法を提案する。
我々は、この自己精製能力にインセンティブを与えるために強化学習を採用する。
当社のトレーニングモデルであるPoivre-7Bは、Point-Benchに新たな技術状況を設定し、プロプライエタリなモデルと大規模なオープンソースモデルの両方を3%以上上回っています。
- 参考スコア(独自算出の注目度): 21.914527507080052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual pointing, which aims to localize a target by predicting its coordinates on an image, has emerged as an important problem in the realm of vision-language models (VLMs). Despite its broad applicability, recent benchmarks show that current VLMs still fall far behind human performance on this task. A key limitation is that VLMs are typically required to complete the pointing task in a single step, akin to asking humans to point at an object without seeing their own fingers. To address this issue, we propose a simple yet effective self-refining procedure: Point, Visualize, then Refine (Poivre). This procedure enables a VLM to first mark its estimated point, then iteratively refine the coordinates if necessary. Inspired by advances of reasoning models in the natural language domain, we employ reinforcement learning (RL) to incentivize this self-refining ability. For the RL training, we design a neat process reward that is not only empirically effective but also grounded in appealing properties. Our trained model, Poivre-7B, sets a new state of the art on Point-Bench, outperforming both proprietary models such as Gemini-2.5-Pro and large open-source models such as Molmo-72B by over 3%. To support future research, we release our training and inference code, dataset, and the Poivre-7B checkpoint.
- Abstract(参考訳): 画像上の座標を予測して目標をローカライズすることを目的とした視覚的ポインティングは、視覚言語モデル(VLM)の領域において重要な問題となっている。
適用性は広いが、最近のベンチマークでは、現在のVLMは、このタスクにおける人間のパフォーマンスよりもはるかに遅れている。
鍵となる制限は、VLMが通常、1ステップでポイントタスクを完了させる必要があることだ。
この問題に対処するために,ポイント,可視化,リファイン(Poivre)という,シンプルで効果的な自己精製手順を提案する。
この手順により、VLMはその推定点を最初にマークし、必要に応じて座標を反復的に洗練することができる。
自然言語領域における推論モデルの発展に触発されて、この自己精製能力を高めるために強化学習(RL)を採用している。
RLトレーニングのために、我々は、経験的に有効であるだけでなく、魅力ある性質にも根ざした、きちんとしたプロセス報酬を設計する。
トレーニングされたモデルPoivre-7Bは、Point-Bench上で新しい最先端のモデルを設定し、Gemini-2.5-ProのようなプロプライエタリなモデルとMomo-72Bのような大規模なオープンソースモデルの両方を3%以上上回っています。
今後の研究を支援するため、トレーニングコードと推論コード、データセット、Poivre-7Bチェックポイントをリリースします。
関連論文リスト
- Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views [58.45662356692379]
本稿では,まず2つの分離点雲/ビューを生成し,一方を他方から再構成する相互再構成生成パラダイムであるPoint-PQAEを提案する。
クロスコンストラクションは, 自己再構成と比較して, 事前学習の難易度を著しく高め, 3次元自己教師型学習において従来の単一モーダル自己再構成法を超越することができる。
論文 参考訳(メタデータ) (2025-09-01T08:42:17Z) - Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。