論文の概要: Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
- arxiv url: http://arxiv.org/abs/2506.17417v1
- Date: Fri, 20 Jun 2025 18:23:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.405479
- Title: Aha Moment Revisited: Are VLMs Truly Capable of Self Verification in Inference-time Scaling?
- Title(参考訳): Aha Moment氏が再考: VLMは推論時間スケーリングにおける自己検証を真に可能か?
- Authors: Mingyuan Wu, Meitang Li, Jingcheng Yang, Jize Jiang, Kaizhuo Yan, Zhaoheng Li, Minjia Zhang, Klara Nahrstedt,
- Abstract要約: 我々は,視覚抵抗モデル(VLM)に推論時間的手法が効果的に拡張するか否かを検討する。
多数決や自己検証によるベスト・オブ・N選択といったデコード戦略はVLM推論性能を向上するが、前者のような生成手法は後者のような検証手法に比べて大幅に向上することがわかった。
RL学習されたVLMには、視覚とテキストの両モードで堅牢な自己検証機能がない。
- 参考スコア(独自算出の注目度): 19.422376032675572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have demonstrated that inference-time computation techniques, such as decoding-time scaling and self-refinement, can significantly enhance reasoning capabilities without relying on external knowledge. A key driver of this success is the emergence of self-correction and self-verification behaviors, often elicited through reinforcement learning (RL). In this paper, we investigate whether these inference-time techniques extend effectively to vision-language models (VLMs), particularly those trained with RL. We find that while decoding strategies such as majority voting and best-of-N selection with self-verification all improve VLM reasoning performance, generation-reliant methods such as the former achieve significantly higher gains versus verification-reliant methods such as the latter. Additionally, the self-correction behavior often associated with RL-tuned models, such as aha moment, does not lead to measurable gains. We show via extensive experimentation within the inference-time scaling framework to identify a key root cause: RL-trained VLMs still lack robust self-verification capabilities across both visual and textual modalities.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、デコード時間スケーリングや自己精製といった推論時間計算技術が、外部知識に頼ることなく推論能力を大幅に向上させることを示した。
この成功の鍵となる要因は自己補正と自己検証の出現であり、しばしば強化学習(RL)を通じて引き起こされる。
本稿では,これらの推論時間の手法が視覚言語モデル(VLM)、特にRLで訓練されたモデルに効果的に拡張されているかを検討する。
多数決や自己検証によるベスト・オブ・N選択といったデコード戦略は、VLM推論性能を向上させる一方で、前者のようなジェネレーション・リライアント手法は、後者のような検証・リリアント手法よりも大幅に向上することがわかった。
さらに、アハモーメントのようなRL調整モデルに付随する自己補正の振る舞いは、測定可能な利得をもたらすことはない。
RL学習されたVLMには、視覚とテキストの両モードで堅牢な自己検証機能がない。
関連論文リスト
- VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models [21.438802784706994]
視覚的に基盤付けられたテストタイムスケーリングフレームワークであるVisRefを提案する。
私たちのキーとなる考え方は、ビジュアルトークンのコアセットを再注入することで、推論プロセスを積極的に導くことです。
固定されたテストタイム計算予算の下では、VisRefは既存のテストタイムスケーリングアプローチを最大6.4%上回っている。
論文 参考訳(メタデータ) (2026-02-27T11:48:19Z) - PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding [85.22047087898311]
本稿では,より広範な拡張設定へのコントラストデコーディングを一般化するテスト時動作制御手法であるPolarity-Prompt Contrastive Decoding(PromptCD)を紹介する。
PromptCDは、目標行動のためのペアの正と負の導出プロンプトを構築し、望ましい結果を強化するためにモデル応答を対比する。
3H"アライメントの目的に関する実験では、一貫性と実質的な改善が示されている。
論文 参考訳(メタデータ) (2026-02-24T08:56:52Z) - Found-RL: foundation model-enhanced reinforcement learning for autonomous driving [15.275134927543611]
エンドツーエンド自動運転(AD)の主流パラダイムとして強化学習(RL)が登場している。
Found-RLは、基礎モデルを使用してADのためのRLを効率的に拡張するプラットフォームである。
コアとなるイノベーションは非同期バッチ推論フレームワークで、シミュレーションループから重いVLM推論を分離する。
論文 参考訳(メタデータ) (2026-02-11T02:56:04Z) - Vision-aligned Latent Reasoning for Multi-modal Large Language Model [82.26044667101011]
VaLR(Vision-aligned Latent Reasoning)は、思考の連鎖の推論ステップの前に動的に視覚対応の潜在トークンを生成するフレームワークである。
VaLRは、MLLMの中間埋め込みを視覚エンコーダのものと整合させることにより、推論中の視覚的知識の保存を訓練する。
論文 参考訳(メタデータ) (2026-02-04T12:04:02Z) - Limits and Gains of Test-Time Scaling in Vision-Language Reasoning [8.76012279865596]
テスト時間スケーリング(TTS)は、推論時にさらなる計算を割り当てることで、LLM(Large Language Models)の推論能力を改善するための強力なパラダイムとして登場した。
本稿では、異なるベンチマーク上で、オープンソースおよびクローズドソースのVision-Language Models (VLM) にまたがる推論時間推論手法について、系統的研究を行った。
論文 参考訳(メタデータ) (2025-12-11T20:48:54Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - ReVeal: Self-Evolving Code Agents via Iterative Generation-Verification [6.983144806500892]
ReVealは、明示的な自己検証とツールベースの評価でコード生成をインターリーブするマルチターン強化学習フレームワークである。
モデルの生成と検証機能の共進化をRLトレーニングを通じて促進し、ベースモデルの推論境界を広げる。
また、より深い推論規則へのテストタイムスケーリングを可能にし、推論中にターン数が増加するにつれて、コードは一貫して進化する。
論文 参考訳(メタデータ) (2025-06-13T03:41:04Z) - Incentivizing LLMs to Self-Verify Their Answers [20.2584779107763]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な進歩を示している。
自明な回答を自己検証するために LLM をインセンティブとするフレームワークを提案する。
我々はQwen2.5-Math-7BとDeepSeek-R1-Distill-Qwen-1.5Bに基づいて自己検証モデルを訓練する。
論文 参考訳(メタデータ) (2025-06-02T06:54:29Z) - Reasoning Models Hallucinate More: Factuality-Aware Reinforcement Learning for Large Reasoning Models [83.24079543652253]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。
複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。
さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T13:53:28Z) - OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。
本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。
OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Self-Correction is More than Refinement: A Learning Framework for Visual and Language Reasoning Tasks [43.96835245022083]
モデルにアウトプットを洗練させる自己補正は、この問題に対する有望な解決策である。
本研究では,視覚言語モデルの推論および微調整段階における自己補正能力について検討した。
論文 参考訳(メタデータ) (2024-10-05T06:28:54Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。