論文の概要: Binary Verification for Zero-Shot Vision
- arxiv url: http://arxiv.org/abs/2511.10983v1
- Date: Fri, 14 Nov 2025 06:05:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.445696
- Title: Binary Verification for Zero-Shot Vision
- Title(参考訳): ゼロショットビジョンのためのバイナリ検証
- Authors: Jeffrey Liu, Rongbin Hu,
- Abstract要約: 市販のVLMを用いたゼロショットビジョンのためのトレーニング不要バイナリ検証ワークフローを提案する。
我々は、オープンエンドの視覚クエリをMCQに量子化し、さらにTrue/False検証に二項化する方法を定式化する。
- 参考スコア(独自算出の注目度): 1.5777959896871054
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a training-free, binary verification workflow for zero-shot vision with off-the-shelf VLMs. It comprises two steps: (i) quantization, which turns the open-ended query into a multiple-choice question (MCQ) with a small, explicit list of unambiguous candidates; and (ii) binarization, which asks one True/False question per candidate and resolves deterministically: if exactly one is True, select it; otherwise, revert to an MCQ over the remaining plausible candidates. We evaluate the workflow on referring expression grounding (REC), spatial reasoning (Spatial-Map, Spatial-Grid, Spatial-Maze), and BLINK-Jigsaw. Relative to answering open-ended queries directly, quantization to MCQ yields large gains, and True/False binarization provides a consistent additional boost. Across all tasks, the same workflow produces significant improvements, indicating generality. Our theory formalizes how open-ended vision queries can be quantized to MCQs and further binarized into True/False verifications, establishing a hardness ladder. A simple analysis explains why Boolean resolution boosts accuracy. Together, these components yield a simple and unified workflow that emphasizes inference-time design over task-specific training. It offers a practical, drop-in path to stronger zero-shot vision with today's VLMs.
- Abstract(参考訳): 市販のVLMを用いたゼロショットビジョンのためのトレーニング不要バイナリ検証ワークフローを提案する。
ステップは2つ。
i) 量子化 — オープンエンドクエリを、あいまいな候補の小さな明示的なリストを持つ多重選択質問(MCQ)に変換する。
(ii)2項化は、候補者ごとに1つの真/偽の質問をし、決定論的に1つが真であれば、それを選択し、そうでなければ、残りの候補よりもMCQに回帰する。
本稿では,表現接頭辞(REC),空間推論(空間地図,空間グリッド,空間迷路),BLINK-Jigsawのワークフローを評価する。
オープンなクエリに直接応答するのとは対照的に、MCQへの量子化は大きな利得をもたらし、True/Falseのバイナライゼーションは、一貫した追加的な向上をもたらす。
すべてのタスクにおいて、同じワークフローが大幅に改善され、汎用性を示している。
我々の理論は、オープンエンドの視覚クエリがMCQに量子化され、さらにTrue/False検証に二項化され、硬度はしごが確立される、というものである。
単純な分析では、Booleanの解像度が精度を高める理由が説明されている。
これらのコンポーネントは、タスク固有のトレーニングよりも推論時設計を重視する、シンプルで統一されたワークフローを提供する。
これは、今日のVLMによるより強力なゼロショットビジョンへの実用的な、ドロップインパスを提供する。
関連論文リスト
- No Compute Left Behind: Rethinking Reasoning and Sampling with Masked Diffusion Models [42.158430350703505]
マスク付き拡散言語モデルは、ランダムにマスキングされたシーケンスにおける埋め込み位置を訓練する。
推論・アズ・インフィルとマルチトークンエントロピーデコーディングを提案する。
本研究は,MDLMが使用するトレーニングと計算によって,多くの新しい推論とポストトレーニング手法が解き放たれることを示す。
論文 参考訳(メタデータ) (2025-10-22T19:41:27Z) - FINEREASON: Evaluating and Improving LLMs' Deliberate Reasoning through Reflective Puzzle Solving [90.88021670297664]
FINEREASONは、大規模言語モデルの推論能力を評価するための論理パズルベンチマークである。
状態チェックと状態遷移という2つのタスクを導入し、モデルが現在の状況をどのように評価するかを総合的に評価し、次の動きを計画する。
状態チェックと遷移データに基づいてトレーニングされたモデルでは、GSM8Kで最大5.1%の精度で数学推論が向上することを示す。
論文 参考訳(メタデータ) (2025-02-27T16:23:25Z) - CoT-UQ: Improving Response-wise Uncertainty Quantification in LLMs with Chain-of-Thought [10.166370877826486]
大規模言語モデル(LLM)は多くのタスクで優れるが、生成された応答の不確かさを正確に定量化するのに苦労する。
LLMの既存の不確実量化法(UQ)は、応答性よりも応答性の方が早い。
応答型UQフレームワークであるCoT-UQを提案する。
論文 参考訳(メタデータ) (2025-02-24T14:48:06Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。