論文の概要: Limits and Gains of Test-Time Scaling in Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2512.11109v1
- Date: Thu, 11 Dec 2025 20:48:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.569137
- Title: Limits and Gains of Test-Time Scaling in Vision-Language Reasoning
- Title(参考訳): ビジョンランゲージ推論におけるテスト時間スケーリングの限界と利得
- Authors: Mohammadjavad Ahmadpour, Amirmahdi Meighani, Payam Taebi, Omid Ghahroodi, Amirmohammad Izadi, Mahdieh Soleymani Baghshah,
- Abstract要約: テスト時間スケーリング(TTS)は、推論時にさらなる計算を割り当てることで、LLM(Large Language Models)の推論能力を改善するための強力なパラダイムとして登場した。
本稿では、異なるベンチマーク上で、オープンソースおよびクローズドソースのVision-Language Models (VLM) にまたがる推論時間推論手法について、系統的研究を行った。
- 参考スコア(独自算出の注目度): 8.76012279865596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time scaling (TTS) has emerged as a powerful paradigm for improving the reasoning ability of Large Language Models (LLMs) by allocating additional computation at inference, yet its application to multimodal systems such as Vision-Language Models (VLMs) remains underexplored. In this work, we present a systematic empirical study of inference time reasoning methods applied across both open-source and closed-source VLMs on different benchmarks. Our results reveal that while closed-source models consistently benefit from structured reasoning and iterative Self-Refinement, open-source VLMs show inconsistent behavior: external verification provides the most reliable gains, whereas iterative refinement often degrades performance. We further find that the effectiveness of TTS is dataset-dependent, yielding clear improvements on multi-step reasoning tasks but offering only limited gains on perception-focused benchmarks. These findings demonstrate that TTS is not a universal solution and must be tailored to both model capabilities and task characteristics, motivating future work on adaptive TTS strategies and multimodal reward models.
- Abstract(参考訳): テストタイムスケーリング(TTS)は、推論時にさらなる計算を割り当てることで、LLM(Large Language Models)の推論能力を向上させるための強力なパラダイムとして登場したが、ビジョン・ランゲージ・モデル(VLM)のようなマルチモーダル・システムへの応用はいまだ検討されていない。
本研究では,異なるベンチマーク上で,オープンソースVLMとクローズドソースVLMの両方に適用される推論時間推論手法について,系統的研究を行った。
我々の結果から, クローズドソースモデルは構造的推論と反復的自己精製の恩恵を受けながら, オープンソースVLMは一貫性のない動作を示し, 外部検証が最も信頼性の高いゲインを提供するのに対して, 反復的改善は性能を劣化させる。
さらに、TSの有効性はデータセットに依存しており、多段階推論タスクにおいて明確な改善をもたらすが、知覚中心のベンチマークでは限られた利益しか得られない。
これらの結果は、TSは普遍的な解決策ではなく、モデル能力とタスク特性の両方に合わせる必要があることを示し、適応的TS戦略とマルチモーダル報酬モデルに対する今後の取り組みを動機付けている。
関連論文リスト
- Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models [28.416254061159176]
マルチモーダルキーフレーズ予測(MMKP)は、テキストのみの手法を超えて進歩することを目的としている。
従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。
MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:13:07Z) - Test-Time Scaling of Reasoning Models for Machine Translation [16.317481079574065]
テスト時間スケーリング(TTS)は、数学やコーディングといった様々なタスクにおける推論モデル(RM)の性能を向上させる。
本稿では,推論時間の増大により翻訳品質が向上するかどうかを考察する。
論文 参考訳(メタデータ) (2025-10-07T21:15:18Z) - Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models [64.02612380298228]
最近の研究は、テストタイムトレーニング(TTT)として知られる特定のタスクに対して、テストタイムでモデルをトレーニングし続けるというアイデアを探求している。
本稿では,TTTがグローバルトレーニングよりもはるかに小さな分布内テスト誤差を達成できるモデルを提案する。
我々は、ImageNet上でスパースオートエンコーダをトレーニングすることで、モデルの主要な仮定を実証的に検証する。
論文 参考訳(メタデータ) (2025-09-29T09:24:52Z) - Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time [12.659582318581606]
Vision Foundation Models (VFM) や Multimodal Large Language Models (MLLM) といった現在のアプローチでは意味理解が強化されているが、微調整時に高い計算オーバーヘッドと限られたクロスドメイン転送性に悩まされている。
本稿では,直接類似度スコアリングのためのガイダンスベースの手法を用いて,視覚言語アライメント機能を活用したテスト時間スケーリング(TTS)を用いた新しいフレームワークを提案する。
提案手法では,長さ制御可能なスコアアウトプットを生成する構造的プロンプトを用いることで,2段階処理を除去する。
論文 参考訳(メタデータ) (2025-09-02T09:25:13Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models [79.41859481668618]
大規模言語モデル(LLM)はファクトチェック研究を大幅に進歩させた。
既存のファクトチェック評価手法は静的データセットと分類基準に依存している。
本稿では, LLMのファクトチェック機能を適応的かつ動的に評価するエージェント駆動型フレームワークであるFACT-AUDITを紹介する。
論文 参考訳(メタデータ) (2025-02-25T07:44:22Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Making Long-Context Language Models Better Multi-Hop Reasoners [42.09676404515287]
本稿では,各アサーションに対するアトリビューションの供給を促す新しいアプローチであるReasoning with Attributionsを紹介する。
我々は,プロプライエタリモデルとオープンソースモデルの両方を用いて,3つのマルチホップデータセットの実験を通じてアプローチを検証する。
本モデルでは,ChatGPT や Claude-Instant などの独自の LM を並列化して,マルチホップ推論ベンチマーク上での競合性能を実現する。
論文 参考訳(メタデータ) (2024-08-06T15:06:40Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。