論文の概要: VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning
- arxiv url: http://arxiv.org/abs/2412.02172v1
- Date: Tue, 03 Dec 2024 05:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:38.876540
- Title: VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning
- Title(参考訳): VISCO: ビジュアル推論における自己改善に向けた微粒な批判と訂正のベンチマーク
- Authors: Xueqing Wu, Yuheng Ding, Bingxuan Li, Pan Lu, Da Yin, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: 我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
VISCOは密度が高くきめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価する必要がある。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
- 参考スコア(独自算出の注目度): 112.35483894933904
- License:
- Abstract: The ability of large vision-language models (LVLMs) to critique and correct their reasoning is an essential building block towards their self-improvement. However, a systematic analysis of such capabilities in LVLMs is still lacking. We propose VISCO, the first benchmark to extensively analyze the fine-grained critique and correction capabilities of LVLMs. Compared to existing work that uses a single scalar value to critique the entire reasoning [4], VISCO features dense and fine-grained critique, requiring LVLMs to evaluate the correctness of each step in the chain-of-thought and provide natural language explanations to support their judgments. Extensive evaluation of 24 LVLMs demonstrates that human-written critiques significantly enhance the performance after correction, showcasing the potential of the self-improvement strategy. However, the model-generated critiques are less helpful and sometimes detrimental to the performance, suggesting that critique is the crucial bottleneck. We identified three common patterns in critique failures: failure to critique visual perception, reluctance to "say no", and exaggerated assumption of error propagation. To address these issues, we propose an effective LookBack strategy that revisits the image to verify each piece of information in the initial reasoning. LookBack significantly improves critique and correction performance by up to 13.5%.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)がそれらの推論を批判し、修正する能力は、自己改善に向けた重要な構成要素である。
しかし、LVLMにおけるそのような能力の体系的分析はいまだに不足している。
我々は,LVLMの細粒度評価と補正能力を広範囲に解析する最初のベンチマークであるVISCOを提案する。
一つのスカラー値を用いて推論全体を批判する既存の研究と比較すると、VISCOは密できめ細かな批判を特徴とし、LVLMは各ステップの正しさを評価し、彼らの判断を支持する自然言語の説明を提供する必要がある。
24LVLMの大規模評価は, 自己改善戦略の可能性を示すとともに, 人文批判が修正後の性能を著しく向上させることを示した。
しかし、モデル生成の批判は役に立たず、時にはパフォーマンスに有害であり、批判が重要なボトルネックであることを示唆している。
批判的失敗に共通する3つのパターンは,視覚的認識の失敗,「ノー」の否定,過大評価された誤り伝播の仮定である。
これらの問題に対処するため,画像を再検討し,初期推論における各情報の検証を行うLookBack戦略を提案する。
LookBackは、批評と修正のパフォーマンスを最大13.5%改善する。
関連論文リスト
- RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。
コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。
最大で10.3%の改善が達成されている。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning [46.411313304605564]
Critic-Vは、視覚言語モデル(VLM)の推論能力を高めるためにアクター・クライブパラダイムにインスパイアされたフレームワークである。
リアソナーは視覚的およびテキスト的入力に基づいて推論パスを生成し、批判はこれらのパスを洗練するための建設的批評を提供する。
評価の結果,Critic-V フレームワークは GPT-4V を含む既存手法を8つのベンチマークのうち5つで大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T10:28:57Z) - Critic-CoT: Boosting the reasoning abilities of large language model via Chain-of-thoughts Critic [48.94340387130627]
Critic-CoTは、LLMをSystem-2のような批判能力にプッシュするフレームワークである。
人間のアノテーションを使わずにCoT推論パラダイムと遠隔スーパービジョンデータの自動構築
GSM8KとMATHの実験は、我々の強化されたモデルがタスク解決性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-08-29T08:02:09Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。
生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文 参考訳(メタデータ) (2024-02-22T18:59:02Z) - CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。
包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。
信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。