論文の概要: RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning
- arxiv url: http://arxiv.org/abs/2508.13229v3
- Date: Mon, 15 Sep 2025 16:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.337301
- Title: RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning
- Title(参考訳): RISE:自己監督型推論によるVLM画像アノテーションの強化
- Authors: Suhang Hu, Wei Hu, Yuhang Su, Fan Zhang,
- Abstract要約: Supervised Fine-Tuning (SFT) は、注釈の結果にのみ焦点を合わせ、基礎となる根拠を無視している。
Visual-RFT(Visual Reinforcement Fine-Tuning)は、事前トレーニング中に高品質で検証されたCoTが欠如していることから、不整合性思考鎖(CoT)を生成する。
RISE(Reason-Inspire-Strengthen-Expertise)は,これらの制限を克服するための2段階のフレームワークである。
- 参考スコア(独自算出の注目度): 10.797460135169763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) struggle with complex image annotation tasks, such as emotion classification and context-driven object detection, which demand sophisticated reasoning. Standard Supervised Fine-Tuning (SFT) focuses solely on annotation outcomes, ignoring underlying rationales, while Visual Reinforcement Fine-Tuning (Visual-RFT) produces inconsistent Chains of Thought (CoTs) due to the absence of high-quality, verified CoTs during pre-training. We introduce RISE (Reason-Inspire-Strengthen-Expertise), a two-stage framework to overcome these limitations. In the Reason stage (RISE-CoT), a reinforcement learning-driven "annotation-reasoning-annotation" closed-loop generates visually grounded, logically consistent CoTs by verifying their ability to reconstruct original annotations without direct leakage. The Inspire and Strengthen stage (RISE-R1) leverages a high-quality CoT subset, filtered by RISE-CoT rewards, for supervised fine-tuning, followed by reinforcement fine-tuning to produce interpretable reasoning and accurate annotations, achieving Expertise in complex visual tasks. Evaluated on complex and simple image annotation tasks, RISE-trained Qwen2-VL-2B outperforms SFT and Visual-RFT, achieving robust performance and enhanced explainability. RISE offers a self-supervised solution for advancing VLM reasoning without requiring manually annotated CoTs.Code and resources are available at: https://github.com/HSH55/RISE.
- Abstract(参考訳): VLM(Vision-Language Models)は、感情分類やコンテキスト駆動型オブジェクト検出といった複雑な画像アノテーションタスクに苦しむ。
標準監督微調整(Standard Supervised Fine-Tuning, SFT)は、注釈結果にのみ焦点をあてるが、ビジュアル強化微調整(Visual Reinforcement Fine-Tuning, Visual-RFT)は、事前訓練中に高品質で検証されたCoTが欠如していることから、一貫性のない思考の連鎖(CoT)を生成する。
RISE(Reason-Inspire-Strengthen-Expertise)は,これらの制限を克服するための2段階のフレームワークである。
Reason stage (RISE-CoT) では、強化学習駆動の「アノテーション・アノテーション・アノテーション」と呼ばれるクローズドループが、直接リークすることなく元のアノテーションを再構築する能力を検証することによって、視覚的に接地された論理的に一貫したCoTを生成する。
Inspire and Strengthen stage (RISE-R1)は、RISE-CoTの報酬によってフィルタリングされた高品質なCoTサブセットを活用して、教師付き微調整を行い、その後強化された微調整を行い、解釈可能な推論と正確なアノテーションを生成し、複雑な視覚タスクにおいてExpertiseを達成する。
RISEで訓練されたQwen2-VL-2Bは、複雑な画像アノテーションタスクに基づいて、SFTとVisual-RFTより優れ、堅牢なパフォーマンスと説明可能性の向上を実現している。
RISEは、手動で注釈付けされたCoTを必要とせずに、VLM推論を進めるための自己教師型ソリューションを提供する。
関連論文リスト
- CrystaL: Spontaneous Emergence of Visual Latents in MLLMs [55.34169914483764]
CrystaL(Crystallized Latent Reasoning)は,静止画像と劣化画像を処理するための2つの経路を持つ単一ステージフレームワークである。
CrystaLは2つの経路にまたがる注意パターンと予測分布を明確に調整することで、潜在表現をタスク関連視覚意味論に結晶化する。
知覚集約ベンチマークの実験では、CrystaLは最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-24T15:01:30Z) - On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs [15.301640007799735]
単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。
これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
論文 参考訳(メタデータ) (2026-02-13T01:12:00Z) - Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner [46.140724013144194]
CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
論文 参考訳(メタデータ) (2026-02-04T09:00:12Z) - QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding [80.66379018208568]
視覚的品質評価は、予測から解釈可能な品質理解へとシフトしている。
現在のアプローチは、教師付き微調整や強化学習に頼っている。
本稿では,視覚的品質知覚のための大規模マルチモーダルモデルの潜在知覚的知識を体系的に活用するフレームワークであるVbfQualiRAGを提案する。
論文 参考訳(メタデータ) (2026-01-26T06:27:03Z) - CoG: Controllable Graph Reasoning via Relational Blueprints and Failure-Aware Refinement over Knowledge Graphs [53.199517625701475]
CoGはDual-Process Theoryにインスパイアされたトレーニング不要のフレームワークで、直観と熟考の相互作用を模倣している。
CoGは精度と効率の両方において最先端のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-16T07:27:40Z) - Can Textual Reasoning Improve the Performance of MLLMs on Fine-grained Visual Classification? [18.16727716373833]
マルチモーダル大言語モデル(MLLM)は、強力な汎用能力を示すが、細粒度視覚分類(FGVC)に苦戦している。
ReFine-RFTは、高精度なフィードバックを提供しながら、アンサンブル報酬をalgと組み合わせて推論長を制約するフレームワークである。
論文 参考訳(メタデータ) (2026-01-11T17:07:47Z) - Think Bright, Diffuse Nice: Enhancing T2I-ICL via Inductive-Bias Hint Instruction and Query Contrastive Decoding [10.961445998450008]
Text-to-Image In-Context Learningは、インターリーブされたテキストイメージの例を通じて、カスタマイズされた画像合成を可能にする。
既存の方法は、柔軟性を制限し、デプロイメントコストを増大させる、調整されたトレーニングに依存している。
2つの補完的な閉ループ機構を統合したトレーニングフリーフレームワークTBDNを提案する。
論文 参考訳(メタデータ) (2026-01-07T06:39:45Z) - A Reasoning Paradigm for Named Entity Recognition [16.86833034216367]
名前付きエンティティ認識のための推論フレームワークが提案されている。
フレームワークは、Chain of Thought(CoT)生成、CoTチューニング、推論強化の3つのステージで構成されている。
実験では、ReasoningNERがNERタスクにおける印象的な認知能力を示し、競争性能を達成する。
論文 参考訳(メタデータ) (2025-11-15T01:31:43Z) - CIR-CoT: Towards Interpretable Composed Image Retrieval via End-to-End Chain-of-Thought Reasoning [93.05917922306196]
Composed Image Retrieval (CIR) は、参照画像と修正テキストから対象画像を見つけることを目的としている。
CIR-CoTは、明示的なChain-of-Thought (CoT)推論を統合するために設計された最初のエンドツーエンド検索指向MLLMである。
論文 参考訳(メタデータ) (2025-10-09T09:41:45Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Light-IF: Endowing LLMs with Generalizable Reasoning via Preview and Self-Checking for Complex Instruction Following [10.119219532863767]
思考段階の怠慢な推論は 指示の順守に 寄与する主要な要因だ
本稿では,プレビューと自己チェックを含む厳密な推論プロセスを実現するための包括的フレームワークを提案する。
私たちのLight-IF-32Bモデルは、DeepSeek-R1のような大規模なオープンソースモデルと、Doubao-1.6のようなクローズドソースモデルの両方を上回っています。
論文 参考訳(メタデータ) (2025-08-05T07:42:00Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning [19.28434717501445]
視覚的推論能力は、複雑なマルチモーダルデータを理解する上で重要な役割を果たす。
既存の手法は、チェーン・オブ・ソートによる微調整によるVLM推論を改善する。
我々は新しい強化微調整フレームワークReason-RFTを提案する。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。