論文の概要: The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility
- arxiv url: http://arxiv.org/abs/2508.07989v1
- Date: Mon, 11 Aug 2025 13:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.124226
- Title: The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility
- Title(参考訳): エスカレーター問題 : アクセシビリティのためのAIにおけるインシシビリティ・モーション・ブラインドネスの同定
- Authors: Xiantao Zhang,
- Abstract要約: エスカレーター問題(Escalator problem)とは、エスカレーターの走行方向を知覚する最先端のモデルが存在しない問題である。
この盲目は、ビデオ理解におけるフレームサンプリングのパラダイムの支配に起因している。
我々は、純粋に意味認識から堅牢な物理的知覚へのパラダイムシフトを提唱する。
- 参考スコア(独自算出の注目度): 0.9867937058271615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) hold immense promise as assistive technologies for the blind and visually impaired (BVI) community. However, we identify a critical failure mode that undermines their trustworthiness in real-world applications. We introduce the Escalator Problem -- the inability of state-of-the-art models to perceive an escalator's direction of travel -- as a canonical example of a deeper limitation we term Implicit Motion Blindness. This blindness stems from the dominant frame-sampling paradigm in video understanding, which, by treating videos as discrete sequences of static images, fundamentally struggles to perceive continuous, low-signal motion. As a position paper, our contribution is not a new model but rather to: (I) formally articulate this blind spot, (II) analyze its implications for user trust, and (III) issue a call to action. We advocate for a paradigm shift from purely semantic recognition towards robust physical perception and urge the development of new, human-centered benchmarks that prioritize safety, reliability, and the genuine needs of users in dynamic environments.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚障害者(BVI)コミュニティの補助技術として大きな可能性を秘めている。
しかし、現実のアプリケーションにおける信頼性を損なう重要な障害モードを特定します。
エスカレーター問題(Escalator problem)とは、エスカレーターの走行方向を知覚する最先端モデルの不備を、インプリシット・モーション・ブラインドネス(Implicit Motion Blindness)という、より深い制限の例として紹介する。
この盲目性は、ビデオ理解における支配的なフレームサンプリングパラダイムに起因しており、ビデオを静止画像の離散的なシーケンスとして扱うことで、基本的には連続的、低信号運動を認識するのに苦労する。
ポジションペーパーとして、私たちのコントリビューションは新しいモデルではなく、(I)この盲点を正式に表現し、(II)ユーザ信頼に対する影響を分析し、(III)行動を呼び起こす。
我々は、純粋に意味認識から堅牢な物理的知覚へのパラダイムシフトを提唱し、動的環境におけるユーザの安全性、信頼性、真のニーズを優先する新しい人間中心のベンチマークの開発を奨励する。
関連論文リスト
- Diffuse-CLoC: Guided Diffusion for Physics-based Character Look-ahead Control [16.319698848279966]
物理に基づくルックアヘッド制御のためのガイド付き拡散フレームワークであるDiffuse-CLoCを提案する。
直感的で、ステアブルで、物理的にリアルなモーション生成を可能にする。
論文 参考訳(メタデータ) (2025-03-14T18:42:29Z) - Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control [44.326363467045496]
大規模言語モデル(LLM)は、ヒューマンフィードバック(RLHF)からの強化学習において重要な研究領域となっている。
表現工学は、新しい、トレーニングなしのアプローチを提供する。
この手法は意味的特徴を利用してLLMの中間隠れ状態の表現を制御する。
正直さや安全性などの様々な意味内容を特異な意味的特徴に符号化することは困難である。
論文 参考訳(メタデータ) (2024-11-04T08:36:03Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - Tuning-Free Accountable Intervention for LLM Deployment -- A
Metacognitive Approach [55.613461060997004]
大規模言語モデル(LLM)は、自然言語処理タスクの幅広い領域にわたる変換的進歩を触媒している。
我々は,自己認識型誤り識別と訂正機能を備えたLLMを実現するために,textbfCLEARと呼ばれる革新的なテキストメタ認知手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T19:18:53Z) - Sim-to-Real Causal Transfer: A Metric Learning Approach to Causally-Aware Interaction Representations [58.96953392466609]
エージェント相互作用の現代的表現の因果認識を詳細に検討する。
近年の表現は、非因果剤の摂動に対して部分的に耐性があることが示されている。
本稿では,因果アノテーションを用いて潜在表現を規則化するメトリクス学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-07T18:57:03Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。