論文の概要: Token Warping Helps MLLMs Look from Nearby Viewpoints
- arxiv url: http://arxiv.org/abs/2604.02870v1
- Date: Fri, 03 Apr 2026 08:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.404304
- Title: Token Warping Helps MLLMs Look from Nearby Viewpoints
- Title(参考訳): Token Warpingは、MLLMが近距離から見るのに役立つ
- Authors: Phillip Y. Lee, Chanho Park, Mingue Park, Seungwoo Yoo, Juil Koo, Minhyuk Sung,
- Abstract要約: ピクセルではなくトークンをワープすることで、マルチモーダルな大規模言語モデル(MLLM)が、周囲の視点からシーンがどのように見えるかを理解するのに役立つ。
後方トークンのワープにより安定性が向上し,視点シフト下でのセマンティック・コヒーレンス(セマンティック・コヒーレンス)の保存性が向上することを示す。
提案したViewBenchベンチマークの実験では、トークンレベルのワープにより、MLLMが近くの視点から確実に推論できることが示されている。
- 参考スコア(独自算出の注目度): 32.97807608835125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can warping tokens, rather than pixels, help multimodal large language models (MLLMs) understand how a scene appears from a nearby viewpoint? While MLLMs perform well on visual reasoning, they remain fragile to viewpoint changes, as pixel-wise warping is highly sensitive to small depth errors and often introduces geometric distortions. Drawing on theories of mental imagery that posit part-level structural representations as the basis for human perspective transformation, we examine whether image tokens in ViT-based MLLMs serve as an effective substrate for viewpoint changes. We compare forward and backward warping, finding that backward token warping, which defines a dense grid on the target view and retrieves a corresponding source-view token for each grid point, achieves greater stability and better preserves semantic coherence under viewpoint shifts. Experiments on our proposed ViewBench benchmark demonstrate that token-level warping enables MLLMs to reason reliably from nearby viewpoints, consistently outperforming all baselines including pixel-wise warping approaches, spatially fine-tuned MLLMs, and a generative warping method.
- Abstract(参考訳): ピクセルではなくトークンをワープすることは、マルチモーダルな大規模言語モデル(MLLM)が、周囲の視点からシーンがどのように見えるかを理解するのに役立つだろうか?
MLLMは視覚的推論において良好に機能するが、画素ワイド・ワープは小さな深度誤差に非常に敏感であり、幾何学的歪みをもたらすため、視点変化に対して脆弱なままである。
人間の視点変換の基盤として部分レベル構造表現を仮定したメンタルイメージの理論に基づいて,ViTベースのMLLMにおける画像トークンが視点変化の有効な基盤となるかどうかを検討する。
対象のビューに密集したグリッドを定義し,各グリッドポイントに対して対応するソースビュートークンを検索し,安定性を向上し,視点シフト下でのセマンティックコヒーレンスを向上する後方トークンワープについて,前方および後方のワープを比較した。
提案したViewBenchベンチマーク実験により,トークンレベルのワープにより,MLLMは,画素ワイドワープアプローチ,空間的に微調整されたMLLM,生成的ワープ手法など,すべてのベースラインを一貫して上回り,近傍の視点から確実に推論できることを示した。
関連論文リスト
- From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。
PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。
MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T12:23:57Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。