論文の概要: The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility
- arxiv url: http://arxiv.org/abs/2508.07989v1
- Date: Mon, 11 Aug 2025 13:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.124226
- Title: The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility
- Title(参考訳): エスカレーター問題 : アクセシビリティのためのAIにおけるインシシビリティ・モーション・ブラインドネスの同定
- Authors: Xiantao Zhang,
- Abstract要約: エスカレーター問題(Escalator problem)とは、エスカレーターの走行方向を知覚する最先端のモデルが存在しない問題である。
この盲目は、ビデオ理解におけるフレームサンプリングのパラダイムの支配に起因している。
我々は、純粋に意味認識から堅牢な物理的知覚へのパラダイムシフトを提唱する。
- 参考スコア(独自算出の注目度): 0.9867937058271615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) hold immense promise as assistive technologies for the blind and visually impaired (BVI) community. However, we identify a critical failure mode that undermines their trustworthiness in real-world applications. We introduce the Escalator Problem -- the inability of state-of-the-art models to perceive an escalator's direction of travel -- as a canonical example of a deeper limitation we term Implicit Motion Blindness. This blindness stems from the dominant frame-sampling paradigm in video understanding, which, by treating videos as discrete sequences of static images, fundamentally struggles to perceive continuous, low-signal motion. As a position paper, our contribution is not a new model but rather to: (I) formally articulate this blind spot, (II) analyze its implications for user trust, and (III) issue a call to action. We advocate for a paradigm shift from purely semantic recognition towards robust physical perception and urge the development of new, human-centered benchmarks that prioritize safety, reliability, and the genuine needs of users in dynamic environments.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚障害者(BVI)コミュニティの補助技術として大きな可能性を秘めている。
しかし、現実のアプリケーションにおける信頼性を損なう重要な障害モードを特定します。
エスカレーター問題(Escalator problem)とは、エスカレーターの走行方向を知覚する最先端モデルの不備を、インプリシット・モーション・ブラインドネス(Implicit Motion Blindness)という、より深い制限の例として紹介する。
この盲目性は、ビデオ理解における支配的なフレームサンプリングパラダイムに起因しており、ビデオを静止画像の離散的なシーケンスとして扱うことで、基本的には連続的、低信号運動を認識するのに苦労する。
ポジションペーパーとして、私たちのコントリビューションは新しいモデルではなく、(I)この盲点を正式に表現し、(II)ユーザ信頼に対する影響を分析し、(III)行動を呼び起こす。
我々は、純粋に意味認識から堅牢な物理的知覚へのパラダイムシフトを提唱し、動的環境におけるユーザの安全性、信頼性、真のニーズを優先する新しい人間中心のベンチマークの開発を奨励する。
関連論文リスト
- ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - Understanding and Enhancing Encoder-based Adversarial Transferability against Large Vision-Language Models [19.899086203883254]
大規模視覚言語モデル (LVLM) は、マルチモーダルタスクで顕著な成功を収めた。
視覚的な入力への依存は、大きな敵の脅威に晒される。
既存のエンコーダベースの攻撃は、LVLM全体ではなく、視覚エンコーダのみに最適化することで、入力画像を摂動させる。
本研究は,LVLMにおけるエンコーダを用いた対向転送性に関する最初の体系的研究である。
論文 参考訳(メタデータ) (2026-02-10T05:51:02Z) - Vision-Language Models Unlock Task-Centric Latent Actions [75.53481518882275]
本稿では、視覚言語モデル(VLM)の常識推論能力を利用して、迅速な表現を実現することを提案する。
そこで本研究では,VLMに障害を無視するよう求めれば,遅延動作の質が大幅に向上し,解離メタワールドにおける下流の成功率が最大6倍に向上することを示す。
論文 参考訳(メタデータ) (2026-01-30T08:38:59Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Semantic Misalignment in Vision-Language Models under Perceptual Degradation [2.9140696506330723]
視覚知覚の制御下において視覚言語モデル(VLM)における意味的ミスアライメントについて検討する。
ダウンストリームVLMの動作に深刻な障害がみられ, 幻覚的対象の言及, 安全クリティカルな実体の欠落, 不整合性判定などが観察された。
以上の結果から,画素レベルのロバスト性とマルチモーダルなセマンティックな信頼性との明確な不一致が明らかとなり,現在のVLMシステムにとって重要な限界が浮き彫りになった。
論文 参考訳(メタデータ) (2026-01-13T09:13:05Z) - Chameleon: Adaptive Adversarial Agents for Scaling-Based Visual Prompt Injection in Multimodal AI Systems [0.0]
本稿では,VLM(Vision-Language Models)におけるスケーリング脆弱性の公開と活用を目的とした,新しい適応型対向フレームワークを提案する。
実験の結果,Chameleonは様々なスケーリング要因に対して84.5%のアタック成功率(ASR)を達成した。
これらの攻撃はエージェントパイプラインを効果的に侵害し、マルチステップタスクにおいて意思決定精度を45%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-04T15:22:28Z) - When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control [16.319698848279966]
物理に基づくルックアヘッド制御のためのガイド付き拡散フレームワークであるDiffuse-CLoCを提案する。
直感的で、ステアブルで、物理的にリアルなモーション生成を可能にする。
論文 参考訳(メタデータ) (2025-03-14T18:42:29Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。