論文の概要: Mitigating Coordinate Prediction Bias from Positional Encoding Failures
- arxiv url: http://arxiv.org/abs/2510.22102v1
- Date: Sat, 25 Oct 2025 00:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.822512
- Title: Mitigating Coordinate Prediction Bias from Positional Encoding Failures
- Title(参考訳): 位置符号化故障からの座標予測バイアスの緩和
- Authors: Xingjian Tao, Yiwei Wang, Yujun Cai, Yihong Luo, Jing Tang,
- Abstract要約: 高解像度入力は、位置エンコーディングを弱める長いトークンシーケンスを生成することで、この困難を悪化させる。
我々は、視覚的位置エンコーディングがシャッフルによって意図的に摂動されるとき、MLLMがどのように振る舞うかを分析する。
本研究では,これらのバイアスの方向特性を利用したトレーニング不要なテストタイム手法であるビジョン-PEシャッフルガイダンス(VPSG)を提案する。
- 参考スコア(独自算出の注目度): 31.63900089866925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) excel at vision-language tasks such as VQA and document understanding, yet precise coordinate prediction remains challenging. High-resolution inputs exacerbate this difficulty by producing long token sequences that weaken positional encodings and introduce directional biases in coordinate outputs. We investigate this phenomenon by analyzing how MLLMs behave when visual positional encodings (VPEs) are deliberately perturbed through shuffling. Our analysis reveals that such perturbations induce predictable, non-random coordinate biases rather than random errors, suggesting that models rely on internal positional priors when spatial grounding signals are degraded. Crucially, we observe similar directional error patterns in natural high-resolution datasets, indicating that positional encoding failures are a key bottleneck for accurate coordinate prediction at scale. To address this issue, we propose Vision-PE Shuffle Guidance (VPSG), a training-free test-time method that leverages the directional nature of these biases for correction. VPSG runs auxiliary decoding with shuffled VPEs to isolate position-unconditioned tendencies, then uses this as negative evidence to guide digit prediction while preserving coordinate format through a lightweight finite-state machine. Experiments on ScreenSpot-Pro demonstrate reliable improvements, highlighting positional encoding robustness as a critical factor for spatial reasoning in MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、VQAや文書理解などの視覚言語タスクに優れるが、正確な座標予測は難しい。
高解像度入力は、位置エンコーディングを弱め、座標出力に方向バイアスを導入する長いトークンシーケンスを生成することで、この困難を悪化させる。
我々は,視覚的位置エンコーディング(VPE)がシャッフルによって意図的に摂動されるとき,MLLMがどのように振る舞うかを解析することによって,この現象を解明する。
解析の結果,このような摂動はランダムな誤差よりも予測可能な非ランダムな座標バイアスを引き起こすことが明らかとなり,空間接地信号の劣化時にモデルが内部位置の事前に依存することが示唆された。
重要なことに、我々は自然の高解像度データセットで同様の方向誤差パターンを観測し、位置符号化の失敗がスケールにおける正確な座標予測の重要なボトルネックであることを示唆した。
この問題を解決するために,これらのバイアスの方向特性を利用したトレーニング不要なテストタイム手法であるVision-PE Shuffle Guidance (VPSG)を提案する。
VPSGは、シャッフルされたVPEを用いて補助的なデコードを実行し、位置無条件の傾向を分離し、これを負のエビデンスとして使用して、座標形式を軽量有限状態マシンで保存する。
ScreenSpot-Proの実験では、MLLMにおける空間的推論の重要な要素として、位置エンコーディングロバストネスが強調され、信頼性の向上が示されている。
関連論文リスト
- Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - Evaluating Line-level Localization Ability of Learning-based Code Vulnerability Detection Models [9.543689542888599]
脆弱性検出のための説明可能性に基づく評価手法を提案する。
提案手法は検出アライメント(DA)として定義され,入力されたソースコード間の一致を定量化する。
このようなモデルの予測は、常に非負の線に偏っていることを示す。
論文 参考訳(メタデータ) (2025-10-13T09:34:40Z) - Mechanistic Interpretability of Code Correctness in LLMs via Sparse Autoencoders [0.0]
スパースオートエンコーダを用いて大規模言語モデルを分解し,コード正当性に対応する方向を特定する。
LLMにおける符号の正当性方向は誤りを確実に予測するのに対して、補正能力は統計的に有意であるが、修正エラーと正しい符号の保存との間にはトレードオフがある。
戦略の推進は、詳細な問題記述よりもテスト例を優先すべきであり、予測器の指示は、開発者レビューのエラーアラームとして機能し、これらの予測器は選択的なステアリングをガイドできる。
論文 参考訳(メタデータ) (2025-10-03T11:44:21Z) - SeqPE: Transformer with Sequential Position Encoding [76.22159277300891]
SeqPEは、各$n$次元位置指数をシンボルシーケンスとして表現し、軽量なシーケンシャル位置エンコーダを用いて埋め込みを学習する。
言語モデリング、長文質問応答、および2次元画像分類による実験により、SeqPEはパープレキシティ、正確なマッチング(EM)、精度の強いベースラインを超えるだけでなく、手作業によるアーキテクチャ再設計を必要とせず、多次元入力へのシームレスな一般化を可能にする。
論文 参考訳(メタデータ) (2025-06-16T09:16:40Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。