論文の概要: Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents
- arxiv url: http://arxiv.org/abs/2606.05753v1
- Date: Thu, 04 Jun 2026 06:26:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.593557
- Title: Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents
- Title(参考訳): Cosine Misleads: Auxiliary Losses Reshape Vision Language Models
- Authors: XiuYu Zhang, Junfeng Fang, Zhenkai Liang,
- Abstract要約: 潜在視覚推論(LVR)は、視覚言語モデルにおける知覚と応答生成の間に監督された潜在トークンを挿入する。
我々は、5つのLVR変種からなる設計された行列を用いてこれを検証し、その仮定を逆転する:コサインアライメントは5つすべての精度と負の相関を持つ。
我々は,PRISM,一対の推論時間診断,すなわち,どの解答がデオード可能かを問う線形プローブ,および遅延がロードベアリングであるかどうかを問う汚職テストを紹介する。
- 参考スコア(独自算出の注目度): 18.727198831705216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent visual reasoning (LVR) inserts supervised latent tokens between perception and answer generation in vision-language models (VLMs). The field uses alignment between these latents and their visual targets, i.e., cosine similarity or mean squared error (MSE), as both the training loss and the quality metric, assuming that better alignment yields a better answer. We test this with a designed matrix of five LVR variants and find the assumption inverted: cosine alignment is negatively correlated with accuracy across all five (r=-0.94). To explain this, we introduce PRISM, a pair of inference-time diagnostics: a linear probe that asks where the answer is decodable, and a corruption test that asks whether the latent is load-bearing. The supervised latents are largely bypassed. Corrupting them shifts accuracy by at most four points. The answer is decodable downstream of the latent but not at it, and the size of this decodability gap predicts how much each variant relies on its latent under perturbation. Consistent with an Information Bottleneck reading of the loss, the auxiliary objective reshapes the language model via shared parameters rather than via the latent variable it nominally optimizes.
- Abstract(参考訳): 潜在視覚推論(LVR)は視覚言語モデル(VLM)において、知覚と応答生成の間に隠された潜在トークンを挿入する。
フィールドはこれらの潜伏者とその視覚的目標、すなわちコサイン類似性または平均二乗誤差(MSE)をトレーニング損失と品質指標の両方としてアライメントし、より良いアライメントがより良い答えをもたらすと仮定する。
我々は、5つのLVR変種からなる設計された行列を用いてこれを検証し、その仮定を逆転した:コサインアライメントは5つすべて(r=-0.94)の精度と負の相関を持つ。
これを説明するために、PRISM、一対の推論時診断法、すなわち、解答の可除性を問う線形プローブ、また、潜伏剤が積載物であるかどうかを問う汚職試験を導入する。
監督された潜伏者は大部分がバイパスされている。
故障すると4点の精度が変化する。
この解答は潜伏の下流にあるが、それでは得られず、この縮退性ギャップの大きさは、摂動下で各変種がその潜伏にどれだけ依存しているかを予測する。
損失に関するインフォメーション・ボトルネック(Information Bottleneck)を読むと、補助的な目的は、名目上最適化される潜在変数ではなく、共有パラメータを介して言語モデルに反応する。
関連論文リスト
- Consistent Yet Wrong: Evidence Insensitivity in Spatial Vision-Language Models [29.66841995436342]
現代の視覚言語モデル(VLM)は、計量距離クエリでは信頼できないままである。
我々は,Hypersim,ScanNet,KITTI360から構築したマルチビュー評価プロトコルであるtextbfViewDiagを紹介する。
安定な予測は、証拠に敏感な推論よりも先駆的な崩壊を反映している可能性が示唆された。
論文 参考訳(メタデータ) (2026-06-01T18:06:08Z) - Learning Uncertainty from Sequential Internal Dispersion in Large Language Models [52.29267172760918]
不確実性推定は、大規模言語モデルにおける幻覚を検出するための有望なアプローチである。
最近の手法は一般に不確実性を推定するために内部状態のモデルに依存する。
本稿では,教師付き幻覚検出フレームワークであるシークエンシャル内部変数表現(SIVR)を提案する。
論文 参考訳(メタデータ) (2026-04-17T06:31:29Z) - PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition [6.460745030735197]
PROBEは学習不要のLiDAR位置認識システムである。
連続カルテシアンジャコビアン摂動を解析的に極小化する。
手書き記述子の中では最も正確である。
論文 参考訳(メタデータ) (2026-03-06T07:00:26Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes [79.36545159724703]
隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。
LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。
これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
論文 参考訳(メタデータ) (2025-11-25T00:24:42Z) - Causality $\neq$ Decodability, and Vice Versa: Lessons from Interpreting Counting ViTs [6.622603488436762]
物体計数のために微調整された視覚変換器(ViT)の関係について検討する。
アクティベーションパッチを用いて,空間トークンとCLSトークンの因果的役割を検証した。
我々は、異なる深さでカウント情報の復調性を評価するために線形プローブを訓練する。
論文 参考訳(メタデータ) (2025-10-10T18:59:03Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Probabilistic Contrastive Learning Recovers the Correct Aleatoric
Uncertainty of Ambiguous Inputs [21.38099300190815]
対照的に訓練されたエンコーダは、最近データ生成プロセスを反転させることが証明されている。
我々は、共通InfoNCEの目的とエンコーダを拡張して、ポイントの代わりに潜在分布を予測する。
論文 参考訳(メタデータ) (2023-02-06T15:30:08Z) - Learning Disentangled Representations with Latent Variation
Predictability [102.4163768995288]
本稿では,潜在不整合表現の変動予測可能性について述べる。
逆生成プロセス内では、潜時変動と対応する画像対の相互情報を最大化することにより、変動予測可能性を高める。
本研究では,潜在表現の絡み合いを測るために,基礎的構造的生成因子に依存しない評価指標を開発する。
論文 参考訳(メタデータ) (2020-07-25T08:54:26Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。