論文の概要: Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding
- arxiv url: http://arxiv.org/abs/2511.13924v1
- Date: Mon, 17 Nov 2025 21:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.806735
- Title: Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding
- Title(参考訳): 小さく始める, 大きく考える: ビジュアルグラウンドのためのカリキュラムベースの相対的ポリシー最適化
- Authors: Qingyang Yan, Guangyao Chen, Yixiong Zou,
- Abstract要約: CoT(Chain-of-Thought)プロンプトは、最近、様々なNLPおよびコンピュータビジョンタスクで大きな可能性を示している。
強化学習(RL)に基づく微調整CoT推論は,視覚グラウンディングタスクの性能をパラドックス的に劣化させる可能性がある。
我々は,CoT長と一般化されたインターセクションを用いた新たなトレーニング戦略であるCuRPOを提案する。
- 参考スコア(独自算出の注目度): 23.138205646078536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain-of-Thought (CoT) prompting has recently shown significant promise across various NLP and computer vision tasks by explicitly generating intermediate reasoning steps. However, we find that reinforcement learning (RL)-based fine-tuned CoT reasoning can paradoxically degrade performance in Visual Grounding tasks, particularly as CoT outputs become lengthy or complex. Additionally, our analysis reveals that increased dataset size does not always enhance performance due to varying data complexities. Motivated by these findings, we propose Curriculum-based Relative Policy Optimization (CuRPO), a novel training strategy that leverages CoT length and generalized Intersection over Union (gIoU) rewards as complexity indicators to progressively structure training data from simpler to more challenging examples. Extensive experiments on RefCOCO, RefCOCO+, RefCOCOg, and LISA datasets demonstrate the effectiveness of our approach. CuRPO consistently outperforms existing methods, including Visual-RFT, with notable improvements of up to +12.52 mAP on RefCOCO. Moreover, CuRPO exhibits exceptional efficiency and robustness, delivering strong localization performance even in few-shot learning scenarios, particularly benefiting tasks characterized by ambiguous and intricate textual descriptions.The code is released on https://github.com/qyoung-yan/CuRPO.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、最近、中間推論ステップを明示的に生成することで、様々なNLPおよびコンピュータビジョンタスクにおいて大きな可能性を示している。
しかし、強化学習(RL)に基づく微調整CoT推論は、特にCoT出力が長くなるか複雑になるにつれて、視覚グラウンディングタスクにおいてパラドックス的に性能を低下させる可能性がある。
さらに分析の結果,データセットのサイズが大きくなると,データの複雑さが変化するため,必ずしも性能が向上しないことがわかった。
これらの知見を生かしたCuRPO(Curiculum-based Relative Policy Optimization)を提案する。これはCoT長とgIoU(Generalized Intersection over Union)報酬を複雑性指標として活用し、より単純な例からより難しい例まで、トレーニングデータを段階的に構造化する新しいトレーニング戦略である。
RefCOCO、RefCOCO+、RefCOCOg、LISAデータセットに関する大規模な実験は、我々のアプローチの有効性を実証している。
CuRPO は Visual-RFT など既存の手法を一貫して上回り、RefCOCO では +12.52 mAP まで改善されている。
さらに、CuRPOは例外的な効率性と堅牢性を示し、数ショットの学習シナリオでも強力なローカライゼーション性能を提供し、特に曖昧で複雑なテキスト記述を特徴とするタスクの恩恵を受けている。
関連論文リスト
- CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - CoT Referring: Improving Referring Expression Tasks with Grounded Reasoning [67.18702329644526]
CoT Referringは、構造化されたチェーン・オブ・シークレット・トレーニングデータ構造を通じて、モデル推論をモダリティにわたって強化する。
トレーニングデータを再構築して、新たな出力フォームを実行し、既存のデータセットに新たなアノテーションを提供します。
また、検出とセグメント化機能を統合MLLMフレームワークに統合し、新しい適応重み付き損失で学習して性能を最適化する。
論文 参考訳(メタデータ) (2025-10-03T08:50:21Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - COPO: Consistency-Aware Policy Optimization [17.328515578426227]
強化学習は、複雑な問題解決タスクにおける大規模言語モデル(LLM)の推論能力を大幅に向上させた。
近年、DeepSeek R1の導入により、ルールベースの報酬をコンピューティングの利点関数の低コストな代替手段として活用し、ポリシー最適化を導くことへの関心が高まっている。
本稿では,結果整合性に基づくグローバルな報酬構造を導入する,整合性を考慮したポリシー最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-06T07:05:18Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs [50.820065021136024]
DeepSeek R1には、大規模言語モデル(LLM)のためのかなり高度な複雑な推論がある。
最近の手法は、R1の推論能力をマルチモーダルな設定で再現しようと試みている。
視覚推論のための新しい強化学習アルゴリズムTACOを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:30:48Z) - Innate Reasoning is Not Enough: In-Context Learning Enhances Reasoning Large Language Models with Less Overthinking [39.48406368755411]
大言語モデル(LLM)がRLLM(Reasoning Large Language Models)を導入
RLLMは、訓練から得られる自然的連鎖起因性(CoT)推論能力を示し、自然な疑問に繋がる:「CoTは、RLLMの推論能力を高めるために必要か?」。
本稿では,Zero-shot CoT と Few-shot CoT が数理推論タスクにおける RLLM に与える影響を初めて包括的に解析する。
論文 参考訳(メタデータ) (2025-03-25T12:37:22Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。