論文の概要: CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks
- arxiv url: http://arxiv.org/abs/2511.00396v1
- Date: Sat, 01 Nov 2025 04:37:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.754946
- Title: CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks
- Title(参考訳): CoT-Saliency:不均一なサリエンシタスクのための統一連鎖推論
- Authors: Long Li, Shuichen Ji, Ziyang Luo, Nian Liu, Dingwen Zhang, Junwei Han,
- Abstract要約: 本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
- 参考スコア(独自算出の注目度): 96.64597365827046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first unified framework that jointly handles three operationally heterogeneous saliency tasks, eg, SOD, CoSOD, and SIS, by casting each as a Chain-of-Thought (CoT) reasoning process in a Vision-Language Model (VLM) to bridge task heterogeneity. CoT training follows a two-stage paradigm: Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). To enhance CoT quality in RL, we propose Confidence-Guided Policy Optimization (CGPO), a lightweight single-sample algorithm that leverages the discrepancy between reward and model confidence as a per-sample advantage signal. This design naturally focuses updates on informative responses while eliminating group sampling, thereby addressing GRPO's key limitations: confidence-agnostic learning, signal dilution, and prohibitive computational overhead. We also introduce an "output-to-reasoning" strategy to construct high-fidelity SFT data that ensures logical consistency with ground-truth masks. Experiments show our model matches or outperforms specialized SOTA methods and strong closed-source VLMs across all tasks, especially achieving an S-measure of 0.899 on CoCA for CoSOD, surpassing the prior best by 8.0 percentage points, despite using far less training data.
- Abstract(参考訳): 本稿では,視覚言語モデル(VLM)におけるチェーン・オブ・ソート(CoT)推論プロセスとして,タスクの不均一性を補うことで,操作上不均一な3つのタスク,例えば,SOD,COSOD,SISを共同で処理する最初の統合フレームワークを提案する。
CoTトレーニングには2段階のパラダイム – Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) がある。
RLにおけるCoT品質を向上させるために,報酬とモデル信頼の相違をサンプルごとの利点信号として活用する軽量シングルサンプルアルゴリズムである信頼性誘導型ポリシー最適化(CGPO)を提案する。
この設計は、グループサンプリングを排除しながら、情報応答の更新に自然に焦点を合わせ、GRPOの重要な制限、すなわち信頼性に依存しない学習、信号の希釈、計算オーバーヘッドの禁止に対処する。
また,高忠実度SFTデータを構築するための「アウトプット・ツー・レアソン」戦略を導入し,グラウントトラスマスクとの論理的整合性を確保する。
特にCoSODのCOCAにおけるS- measures 0.899の達成率は,トレーニングデータよりもはるかに少ないにもかかわらず,従来最高の8.0ポイントを上回った。
関連論文リスト
- MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning [20.442971494407896]
大規模言語モデル (LLM) は推論タスクにおいて顕著な進歩を遂げているが、スーパービジョンファインチューニング (SFT) と強化学習 (RL) の最適統合は依然として根本的な課題である。
本稿では,エントロピーを考慮した重み付け機構により,両方のファインチューニングパラダイムを統一する単一ステージ手法であるSupervised Reinforcement Fine-Tuning (SRFT)を提案する。
大規模な実験の結果、SRFTは平均精度59.1%に達し、5つの数学的推論ベンチマークでは0-RL法を9.0%上回り、3つのアウト・オブ・ディストリビューションベンチマークでは10.9%を上回った。
論文 参考訳(メタデータ) (2025-06-24T16:31:37Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。