論文の概要: VLMs Trace Without Tracking: Diagnosing Failures in Visual Path Following
- arxiv url: http://arxiv.org/abs/2605.15672v1
- Date: Fri, 15 May 2026 06:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.19818
- Title: VLMs Trace Without Tracking: Diagnosing Failures in Visual Path Following
- Title(参考訳): トラッキング不要なVLM:ビジュアルパスの障害診断
- Authors: Hyesoo Hong, Minsoo Kim, Wonje Jeung, Sangyeon Yoon, Dongjae Jeon, Albert No,
- Abstract要約: 視覚言語モデル(VLM)はマルチモーダルベンチマークで高い性能を達成するが、基本的な視覚操作に対する堅牢な制御はいまだに欠けている。
本研究では,連続した局所的な連続を通して,モデルが選択された視覚経路を従わなければならないテキストのトレーシングについて検討する。
我々は,近辺の競合を導入し,意味的・トポロジ的曖昧さを低減したトレーシングタスクを設計する。
- 参考スコア(独自算出の注目度): 10.22092497929711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) achieve strong performance on multimodal benchmarks, but may still lack robust control over basic visual operations. We study \textit{line tracing}, where a model must follow a selected visual path through successive local continuations. To isolate this ability, we design controlled tracing tasks that introduce nearby competitors while reducing semantic and topological ambiguity such as crossings and overlaps. Across these tasks, even state-of-the-art VLMs frequently lose the target path and switch to nearby alternatives, especially when those alternatives look locally similar to the target. Behavioral interventions and internal analyses indicate that these failures arise from local competition: nearby similar distractors pull the model away from the true continuation. Standard remedies do not remove this bottleneck: model-size scaling provides only limited gains, reasoning partially compensates through costly substitute strategies, and explicit tracing instructions fail to recover stable path following. Finally, tests on tangled-cable scenes and metro maps with richer visual complexity show that the same path-switching failure persists beyond our controlled settings.
- Abstract(参考訳): 視覚言語モデル(VLM)はマルチモーダルベンチマークで高い性能を達成するが、基本的な視覚操作に対する堅牢な制御はいまだに欠けている。
そこで,モデルが連続した局所的な連続を通して選択された視覚経路に従う必要がある。
この機能を分離するために、近隣の競合を導入し、横断や重複といった意味的・トポロジ的曖昧さを低減したトレーシングタスクを設計する。
これらのタスク全体にわたって、最先端のVLMでさえ、ターゲットパスを失い、特にターゲットとローカルに類似している場合、近くの代替に切り替えることが多い。
行動介入と内部分析は、これらの障害が局所的な競合から生じることを示唆している。
モデルサイズのスケーリングは、限られた利得しか提供せず、コストのかかる代替戦略によって部分的に補償され、明示的なトレース命令は、続く安定したパスの回復に失敗する。
最後に、絡み合ったケーブルのシーンと、よりリッチな視覚的複雑さを持つメトロマップに対するテストは、同じパススイッチング障害が制御された設定を超えて持続していることを示している。
関連論文リスト
- TraversalBench: Challenging Paths to Follow for Vision Language Models [11.032462608031922]
視覚言語モデル(VLM)はマルチモーダルベンチマークで強く機能するが、複雑な視覚経路を追従する能力は未試験である。
正確なビジュアルパストラバースのベンチマークであるTrversalBenchを紹介する。
自己切断が主要な困難の原因であることに気付きました。
論文 参考訳(メタデータ) (2026-04-13T04:58:52Z) - TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文 参考訳(メタデータ) (2026-03-25T17:56:32Z) - HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation [1.774434289475737]
VLN(Vision-and-Language Navigation)は、厳格なステップバイステップの指示から、オープンな語彙、ゴール指向の自律性へとシフトしている。
本稿では,OsmAGのロバストなグローバルプランニングと,VLNの局所探索と命令グラウンド機能を組み合わせた階層型ナビゲーションフレームワークHaltNavを提案する。
論文 参考訳(メタデータ) (2026-03-13T06:22:35Z) - Let's Reward Step-by-Step: Step-Aware Contrastive Alignment for Vision-Language Navigation in Continuous Environments [38.97818584066075]
VLN-CE(Vision-Language Navigation in Continuous Environments)は、長期にわたる人間のインタラクションから複雑な推論を学ぶためのエージェントである。
現在のトレーニングパラダイムは、一般化能力、エラー回復、トレーニング安定性のバランスをとるのに苦労しています。
本稿では,不完全な軌跡から厳密な監視を抽出するためのフレームワークである,ステップアウェアコントラストアライメント(SACA)を紹介する。
論文 参考訳(メタデータ) (2026-03-10T14:45:50Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - ForgeryVCR: Visual-Centric Reasoning via Efficient Forensic Tools in MLLMs for Image Forgery Detection and Localization [62.03035862528452]
ForgeryVCRは、視覚中心推論(Visual-Centric Reasoning)を通じて、知覚できないトレースを明示的な視覚中間体に物質化するフレームワークである。
ForgeryVCRは、検出タスクとローカライゼーションタスクの両方において、最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-15T11:14:47Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - Generative Point Tracking with Flow Matching [32.15342097497571]
マルチモーダルトラジェクトリをモデル化するための生成フレームワークであるGenerative Point Tracker (GenPT)を紹介する。
GenPTは、識別トラッカーの反復的な洗練を組み合わせた、新しいフローマッチングの定式化で訓練されている。
モデルの生成能力をいかに活用して点軌道推定を改善するかを示す。
論文 参考訳(メタデータ) (2025-10-23T19:25:14Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。