論文の概要: GridProbe: Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs
- arxiv url: http://arxiv.org/abs/2605.10762v1
- Date: Mon, 11 May 2026 15:57:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.959852
- Title: GridProbe: Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs
- Title(参考訳): GridProbe: 長時間ビデオVLMにおける適応テスト時間計算のための後処理
- Authors: Mohamed Eltahir, Lama Ayash, Ali Habibullah, Tanveer Hussain, Naeemullah Khan,
- Abstract要約: GridProbeは、効率的なトレーニング不要な後処理推論パラダイムである。
解答空間における証拠は、凍結したVLM自身の推論を用いて得られる。
疑似関連フレームを適応的に選択し、精度の損失が少なくて、準四分法的な注意コストをもたらす。
- 参考スコア(独自算出の注目度): 3.9266376632068485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-video understanding in VLMs is bottlenecked by a single monolithic forward pass over thousands of frames at quadratic attention cost. A common mitigation is to first select a small subset of informative frames before the forward pass; common for training-free selectors via auxiliary encoder-space similarities. Such signals are capped by contrastive pretraining, which usually fails on reasoning-heavy queries (negation, cross-frame counting, holistic summarization). We propose GridProbe, an efficient training-free posterior-probing inference paradigm that scores evidence in answer space using a frozen VLM's own reasoning and then selects question-relevant frames adaptively, resulting in sub-quadratic attention cost with little to no accuracy loss. We arrange frames on a $K{\times}K$ grid and run lightweight row R and column C probes, where each probe reads its peak posterior as a query-conditioned confidence. The outer product of R and C yields an interpretable importance map whose skewness and kurtosis drive Shape-Adaptive Selection, a closed-form rule that reliably replaces the fixed frame budget $M$ with a per-question $M_{\mathrm{eff}}$. We show empirically that $M_{\mathrm{eff}}$ tracks intrinsic question difficulty without ever seeing the answer, a sign of test-time adaptive compute. On Video-MME-v2, GridProbe matches the monolithic baseline within $1.6$ pp Avg Acc at $3.36\times$ TFLOPs reduction, while on LongVideoBench it Pareto-dominates the baseline ($+0.9$ pp at $0.35\times$ compute). Because the selector and QA models can be decoupled, pairing a small 2B selector with a stronger 4B or 8B QA is strictly Pareto-dominant over the 2B monolithic baseline (up to $+4.0$ pp at $0.52\times$ compute, on average), with no retraining. Finally, the interpretability of the importance maps opens future avenues for behavioral diagnostics, grounding, and frame-selection distillation.
- Abstract(参考訳): VLMの長時間の理解は、二次的注意コストで数千フレームを超える単一のモノリシックフォワードパスによってボトルネックされる。
一般的な緩和策は、最初にフォワードパスの前に情報フレームの小さなサブセットを選択することである。
このような信号は対照的な事前訓練によって捕捉され、通常は推論が重いクエリ(ネゲーション、クロスフレームカウント、全体的要約)で失敗する。
凍結したVLMの推論を用いて解答空間のエビデンスをスコアリングし,質問関連フレームを適応的に選択し,精度の低下を伴わずに準四分法的な注意を伴わない,効率的な学習自由な後処理推論パラダイムであるGridProbeを提案する。
K{\times}K$グリッド上にフレームを配置し、軽量な行RとカラムCプローブを実行する。
R と C の外積は、スキューネスとクルトシスが、固定フレーム予算$M$をクエスト当たり$M_{\mathrm{eff}}$に確実に置き換える閉形式規則であるシェープ・アダプティブ・セレクション(Shape-Adaptive Selection)を駆動する解釈可能な重要写像を与える。
M_{\mathrm{eff}}$は、テスト時間適応計算の兆候である解を見ずに、本質的な疑問の難しさをトラックする。
Video-MME-v2では、GridProbeはモノリシックなベースラインを$16$ pp Avg Accで$3.36\times$TFLOPsで、LongVideoBenchでは$0.35\times$で$+0.9$ ppで支配している。
セレクタとQAモデルは分離可能であるため、より強い4Bまたは8BのQAを持つ小さな2Bセレクタをペアリングすることは、2Bモノリシックベースライン(平均0.52\times$計算で最大$4.0$ pp)に対して厳密にパレート優位である。
最後に、重要地図の解釈性は、行動診断、接地、フレーム選択蒸留のための将来の道を開く。
関連論文リスト
- Compander-Aligned Query Geometry for Quantized Zeroth-Order Optimization [12.92201130466754]
CAQ-ZO は 1-grid-step Rademacher stencils $z pm r$ in $z = (x)$,map endpoints back through $-1$, update in $z$ となる。
提案理論は, グリッドの分散性を証明し, 終端を囲む推定器残差を分解し, 一般のオフグリッドクエリが2/2$残差チャネルを保持するステーション境界を与える一方で, CAQ-ZO はクエリ時間残差を正確にゼロにする。
論文 参考訳(メタデータ) (2026-05-11T14:55:20Z) - Total Generalized Variation regularization closes the gap between neural-eld and classical methods in seismic travel-time tomography [0.0]
トモグラフィーはメッシュ分解能と安定性のトレードオフを強制し、レギュレータの選択が回復可能なものを支配します。
本稿では,Fourier-Feature Neural Networkとして,2次元速度場を表す差別化可能なフレームワークMIMIRを紹介する。
論文 参考訳(メタデータ) (2026-05-11T04:13:52Z) - Scaling Federated Linear Contextual Bandits via Sketching [49.12000877146222]
本稿では,FSCLB(Federated Sketch Contextual Linear Bandits)を提案する。
合成と実世界の両方のデータセットの実験では、FSCLBは計算と通信のコストを90%以上削減している。
論文 参考訳(メタデータ) (2026-05-01T08:22:06Z) - CRPS-Optimal Binning for Conformal Regression [0.0]
そこで本研究では,共分類観測を連続したビンに分割した非パラメトリック条件分布推定法を提案する。
非整合性スコアとしてCRPSに基づくVenn予測バンドと共形予測セットの2つの補完的予測オブジェクトを形成する。
論文 参考訳(メタデータ) (2026-03-23T14:07:09Z) - Adaptive Greedy Frame Selection for Long Video Understanding [11.923839324117674]
大規模視覚言語モデル(VLM)は、長ビデオ質問応答にますます応用されている。
推論は入力フレームの数と結果の視覚トークンによってボトルネックとなることが多い。
固定フレーム予算下でのクエリ関連性とセマンティックな表現性を協調的に最適化する問合せ適応型グレディフレーム選択法を提案する。
論文 参考訳(メタデータ) (2026-03-20T17:55:32Z) - Post-Training with Policy Gradients: Optimality and the Base Model Barrier [27.674563695368665]
結果とプロセス報酬を伴う線形自己回帰モデルの訓練後評価について検討する。
我々は、ポリシー勾配(PG)の変種が、本質的に最小限の報酬クエリ数を持つ1-varepsilon$を実現できることを証明した。
論文 参考訳(メタデータ) (2026-03-07T00:25:53Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - FABind: Fast and Accurate Protein-Ligand Binding [127.7790493202716]
$mathbfFABind$はポケット予測とドッキングを組み合わせたエンドツーエンドモデルで、正確で高速なタンパク質-リガンド結合を実現する。
提案モデルでは,既存手法と比較して有効性と効率性に強い利点が示される。
論文 参考訳(メタデータ) (2023-10-10T16:39:47Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。