論文の概要: RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning
- arxiv url: http://arxiv.org/abs/2508.13229v1
- Date: Sun, 17 Aug 2025 17:24:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.671913
- Title: RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning
- Title(参考訳): RISE:自己監督型推論によるVLM画像アノテーションの強化
- Authors: Suhang Hu, Wei Hu, Yuhang Su, Fan Zhang,
- Abstract要約: Supervised Fine-Tuning (SFT) は、注釈の結果にのみ焦点を合わせ、基礎となる根拠を無視している。
Visual-RFT(Visual Reinforcement Fine-Tuning)は、事前トレーニング中に高品質で検証されたCoTが欠如していることから、不整合性思考鎖(CoT)を生成する。
RISE(Reason-Inspire-Strengthen-Expertise)は,これらの制限を克服するための2段階のフレームワークである。
- 参考スコア(独自算出の注目度): 9.712680657175046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) struggle with complex image annotation tasks, such as emotion classification and context-driven object detection, which demand sophisticated reasoning. Standard Supervised Fine-Tuning (SFT) focuses solely on annotation outcomes, ignoring underlying rationales, while Visual Reinforcement Fine-Tuning (Visual-RFT) produces inconsistent Chains of Thought (CoTs) due to the absence of high-quality, verified CoTs during pre-training. We introduce RISE (Reason-Inspire-Strengthen-Expertise), a two-stage framework to overcome these limitations. In the Reason stage (RISE-CoT), a reinforcement learning-driven "annotation-reasoning-annotation" closed-loop generates visually grounded, logically consistent CoTs by verifying their ability to reconstruct original annotations without direct leakage. The Inspire and Strengthen stage (RISE-R1) leverages a high-quality CoT subset, filtered by RISE-CoT rewards, for supervised fine-tuning, followed by reinforcement fine-tuning to produce interpretable reasoning and accurate annotations, achieving Expertise in complex visual tasks. Evaluated on complex and simple image annotation tasks, RISE-trained Qwen2-VL-2B outperforms SFT and Visual-RFT, achieving robust performance and enhanced explainability. RISE offers a self-supervised solution for advancing VLM reasoning without requiring manually annotated CoTs.
- Abstract(参考訳): VLM(Vision-Language Models)は、感情分類やコンテキスト駆動型オブジェクト検出といった複雑な画像アノテーションタスクに苦しむ。
標準監督微調整(Standard Supervised Fine-Tuning, SFT)は、注釈結果にのみ焦点をあてるが、ビジュアル強化微調整(Visual Reinforcement Fine-Tuning, Visual-RFT)は、事前訓練中に高品質で検証されたCoTが欠如していることから、一貫性のない思考の連鎖(CoT)を生成する。
RISE(Reason-Inspire-Strengthen-Expertise)は,これらの制限を克服するための2段階のフレームワークである。
Reason stage (RISE-CoT) では、強化学習駆動の「アノテーション・アノテーション・アノテーション」と呼ばれるクローズドループが、直接リークすることなく元のアノテーションを再構築する能力を検証することによって、視覚的に接地された論理的に一貫したCoTを生成する。
Inspire and Strengthen stage (RISE-R1)は、RISE-CoTの報酬によってフィルタリングされた高品質なCoTサブセットを活用して、教師付き微調整を行い、その後強化された微調整を行い、解釈可能な推論と正確なアノテーションを生成し、複雑な視覚タスクにおいてExpertiseを達成する。
RISEで訓練されたQwen2-VL-2Bは、複雑な画像アノテーションタスクに基づいて、SFTとVisual-RFTより優れ、堅牢なパフォーマンスと説明可能性の向上を実現している。
RISEは手動で注釈付けされたCoTを必要とせずにVLM推論を進めるための自己教師型ソリューションを提供する。
関連論文リスト
- Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。