論文の概要: Sherlock: Self-Correcting Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.22651v1
- Date: Wed, 28 May 2025 17:58:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.791291
- Title: Sherlock: Self-Correcting Reasoning in Vision-Language Models
- Title(参考訳): Sherlock: ビジョンランゲージモデルにおける自己修正推論
- Authors: Yi Ding, Ruqi Zhang,
- Abstract要約: Reasoning Vision-Language Models (VLM) は複雑なマルチモーダルタスクにおいて有望な性能を示す。
推論エラーに非常に敏感で、大量の注釈付きデータや正確な検証が必要であり、一般化に苦慮している。
自己補正と自己改善のトレーニングフレームワークであるSherlockを紹介します。
Llama3.2-Vision-11Bモデルをベースにしたシャーロックは8つのベンチマークで顕著な結果を得た。
- 参考スコア(独自算出の注目度): 12.746622612151274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning Vision-Language Models (VLMs) have shown promising performance on complex multimodal tasks. However, they still face significant challenges: they are highly sensitive to reasoning errors, require large volumes of annotated data or accurate verifiers, and struggle to generalize beyond specific domains. To address these limitations, we explore self-correction as a strategy to enhance reasoning VLMs. We first conduct an in-depth analysis of reasoning VLMs' self-correction abilities and identify key gaps. Based on our findings, we introduce Sherlock, a self-correction and self-improvement training framework. Sherlock introduces a trajectory-level self-correction objective, a preference data construction method based on visual perturbation, and a dynamic $\beta$ for preference tuning. Once the model acquires self-correction capabilities using only 20k randomly sampled annotated data, it continues to self-improve without external supervision. Built on the Llama3.2-Vision-11B model, Sherlock achieves remarkable results across eight benchmarks, reaching an average accuracy of 64.1 with direct generation and 65.4 after self-correction. It outperforms LLaVA-CoT (63.2), Mulberry (63.9), and LlamaV-o1 (63.4) while using less than 20% of the annotated data.
- Abstract(参考訳): Reasoning Vision-Language Models (VLM) は複雑なマルチモーダルタスクにおいて有望な性能を示す。
エラーの推論に非常に敏感で、大量の注釈付きデータや正確な検証が必要であり、特定のドメインを超えて一般化するのに苦労している。
これらの制約に対処するため、我々は推論VLMを強化する戦略として自己補正を探求する。
まず,VLMの自己補正能力を深く分析し,重要なギャップを同定する。
この結果に基づき、自己補正と自己改善のトレーニングフレームワークであるSherlockを紹介した。
Sherlockは、軌道レベルの自己補正目標、視覚摂動に基づく嗜好データ構築方法、および嗜好チューニングのための動的$\beta$を導入する。
モデルがランダムにアノテートされた20kのデータのみを使用して自己補正機能を取得すると、外部の監視なしに自己改善が続けられる。
Llama3.2-Vision-11Bモデルを基にしたシャーロックは8つのベンチマークで顕著な結果を出し、直接発生時の平均精度は64.1、自己補正後の65.4に達した。
LLaVA-CoT (63.2)、Mulberry (63.9)、LlamaV-o1 (63.4)より優れ、注釈付きデータの20%以下である。
関連論文リスト
- S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Watson: A Cognitive Observability Framework for the Reasoning of LLM-Powered Agents [7.392058124132526]
ファウンデーションモデル(FM)はエージェントソフトウェアのような複雑なソフトウェアシステムにおいて、ますます顕著な役割を担っている。
高速思考の大規模言語モデル(LLM)は、レイテンシの制約のため、依然として好まれている。
暗黙の推論プロセスに推論可能性を提供するフレームワークであるWatsonを紹介します。
論文 参考訳(メタデータ) (2024-11-05T19:13:22Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models [38.79074982172423]
本稿では,トランスフォーマーを用いた大規模言語モデル (LLM) の内部動作について検討する。
本稿では,制約満足度問題として事実クエリをモデル化することを提案する。
制約トークンに対するLLMの注意と世代毎の事実的正確性との間には,強い正の相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-26T17:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。