Fugu-MT 論文翻訳(概要): Test-Time Hinting for Black-Box Vision-Language Models

論文の概要: Test-Time Hinting for Black-Box Vision-Language Models

arxiv url: http://arxiv.org/abs/2605.16410v1
Date: Wed, 13 May 2026 14:35:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:46.303225
Title: Test-Time Hinting for Black-Box Vision-Language Models
Title（参考訳）: ブラックボックスビジョンランゲージモデルのためのテスト時間ヒンティング
Authors: Kaihua Hou, Abhijith Varma Mudunuri, Jiaxing Qiu, Roxana Daneshjou, Thomas Hartvigsen, Ahmed Alaa,
Abstract要約: Test-Time Hintingは、単一のVLMコールによるVLMパフォーマンスを改善し、ブラックボックスAPIアクセスのみを必要とする。テスト時間ヒンティングは、自然画像のVQAベンチマークにおいて、複数の閉重VLMの精度を向上することを示す。
参考スコア（独自算出の注目度）: 11.005886421208709
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Test-time scaling (TTS) methods have proven highly effective for LLMs, yet their application to vision-language models (VLMs) remains relatively underexplored. Existing VLM TTS methods largely require open-weight model access or expensive repeated sampling, and are evaluated primarily on multimodal mathematical and scientific reasoning benchmarks rather than general visual understanding tasks. In this paper, we propose Test-Time Hinting, a method that improves VLM performance via a single VLM call and requiring only black-box API access, which makes it broadly applicable to frontier closed-weight models. Our method is motivated by the observation that VLM errors tend to cluster around recurring failure patterns. We therefore train a lightweight hint generator model to predict, for a given test input, which "hint" should be prepended to the prompt, providing targeted contextual or procedural guidance that steers the VLM away from its characteristic failure modes. We show that Test-Time Hinting improves the accuracy of multiple closed-weight VLMs on natural-image VQA benchmarks and that these gains generalize to unseen benchmarks and VLMs without retraining the hint generator.
Abstract（参考訳）: テスト時スケーリング(TTS)法はLLMに対して極めて有効であることが証明されているが、視覚言語モデル(VLM)への応用はいまだに未検討である。既存のVLM TTS法は、主にオープンウェイトモデルアクセスや高価な繰り返しサンプリングを必要としており、一般的な視覚的理解タスクではなく、主にマルチモーダルな数学的および科学的推論ベンチマークで評価されている。本稿では,単一のVLMコールによるVLM性能の向上と,ブラックボックスAPIアクセスのみを必要とするテスト時間ヒンティングを提案する。我々の手法は、VLMエラーが繰り返し発生する故障パターンの周りに集結する傾向にあるという観察に動機づけられている。そこで我々は、与えられたテスト入力に対して、その"隠れ"がプロンプトに前向きになるように、軽量なヒント生成モデルをトレーニングし、VLMを固有の障害モードから遠ざけるような、コンテキスト的あるいは手続き的なガイダンスを提供する。テスト時間ヒンティングは、自然画像のVQAベンチマークにおける複数の閉重VLMの精度を向上し、それらがヒントジェネレータを再トレーニングすることなく、未確認のベンチマークやVLMに一般化されることを示す。

関連論文リスト

DetPO: In-Context Learning with Multi-Modal LLMs for Few-Shot Object Detection [39.153744982595036]
勾配のないテスト時間最適化手法である検出プロンプト最適化(DetPO)を提案する。提案手法は,Roboflow20-VLおよびLVIS上の一般MLLMに対して一貫した改善をもたらす。
論文参考訳（メタデータ） (2026-03-24T17:26:55Z)
TimeLens: Rethinking Video Temporal Grounding with Multimodal LLMs [81.78017865436816]
我々は,映像の時間的接地能力の強いMLLMを体系的に構築するTimeLensを提案する。まず,既存のVTGベンチマークにおける重要な品質問題を明らかにし,TimeLens-Benchを導入する。また、自動再アノテーションパイプラインを通じてノイズの多いトレーニングデータに対処し、大規模で高品質なトレーニングデータセットであるTimeLens-100Kを出力します。
論文参考訳（メタデータ） (2025-12-16T18:59:58Z)
Training Vision-Language Process Reward Models for Test-Time Scaling in Multimodal Reasoning: Key Insights and Lessons Learned [29.44294456857936]
プロセス・リワード・モデル (Process Reward Models, PRM) は、大規模言語モデルにおける推論の信頼性を向上させる。既存のVision-Language PRMはデータ構築にMCTS(Monte Carlo Tree Search)に依存している。我々は,MCTSと強力なVLMの判断を組み合わせるハイブリッドデータフレームワークを導入し,より正確なステップレベルラベルを生成する。
論文参考訳（メタデータ） (2025-09-27T10:56:58Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
Test-Time Learning for Large Language Models [33.11605667376906]
大規模言語モデル(LLM)のためのテスト時間学習(TTL)パラダイムを提案する。 LLMはテスト中にラベルなしのテストデータのみを使用してターゲットドメインに動的に適応する。 TLMはドメイン知識適応における元のLLMと比較して少なくとも20%性能が向上することを示す。
論文参考訳（メタデータ） (2025-05-27T02:18:59Z)
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文参考訳（メタデータ） (2025-05-26T12:05:16Z)
Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文参考訳（メタデータ） (2024-12-04T20:35:07Z)
LOVM: Language-Only Vision Model Selection [13.857583570058392]
言語のみの視覚モデル選択(Language-Only Vision Model Selection)では,モデル選択と性能予測の両方を実行することが期待される。次に,35個の事前学習されたVLMと23個のデータセットの地上信頼度評価からなるLOVMベンチマークを導入した。
論文参考訳（メタデータ） (2023-06-15T06:53:05Z)
Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。 CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文参考訳（メタデータ） (2023-05-29T11:03:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。