Fugu-MT 論文翻訳(概要): Lost in the Vibrations: Vision Language Models Fail the Dynamic Gauges Test

論文の概要: Lost in the Vibrations: Vision Language Models Fail the Dynamic Gauges Test

arxiv url: http://arxiv.org/abs/2604.22829v1
Date: Sun, 19 Apr 2026 15:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-28 17:12:06.968064
Title: Lost in the Vibrations: Vision Language Models Fail the Dynamic Gauges Test
Title（参考訳）: 振動の損失:動的ゲージテストに失敗した視覚言語モデル
Authors: Tairan Fu, Francisco Javier Santos-Martín, Javier Conde, Pedro Reviriego, Elena Merino-Gómez,
Abstract要約: VLM(Vision-Language Models)は、ゼロショット機器認識の可能性を実証している。彼らの測定システムへの展開は、高周波の時間的事象や針振動を正確に分析できない性質に制約されているままである。本稿では,GPT-5 や Gemini 3 などの最先端モデルについて,メトロジーと不確実性定量化の厳密な要件に対して評価する。
参考スコア（独自算出の注目度）: 4.017289687696229
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The digital transformation of industrial manufacturing increasingly relies on the ability of autonomous robots to interact with legacy infrastructure, particularly analog gauges. While Vision-Language Models (VLMs) have demonstrated potential in zero-shot instrument recognition, their deployment in measurement systems remains constrained by an inherent inability to accurately analyze high-frequency temporal events and needle vibrations. This paper evaluates state-of-the-art models, including GPT-5 and Gemini 3, against the strict requirements of metrology and uncertainty quantification. To facilitate this evaluation, we introduce a novel dataset comprising video sequences of various gauge types: circular, linear, and Vernier, under diverse motion speed profiles. Our findings indicate that current VLMs exhibit limited ability in interpreting needle trajectories and scale semantics, failing to provide the traceability and reliability needed for safety-critical monitoring. The results demonstrate that these models have not yet achieved the performance necessary to be classified as trustworthy synthetic instruments under existing IEEE and ISO standards.
Abstract（参考訳）: 産業生産のデジタルトランスフォーメーションは、レガシインフラストラクチャー、特にアナログゲージと対話する自律ロボットの能力にますます依存している。 VLM(Vision-Language Models)は、ゼロショット計器認識の可能性を実証しているが、その計測システムへの展開は、高周波の時間的事象や針振動を正確に分析する能力の欠如によって制約されている。本稿では,GPT-5 や Gemini 3 などの最先端モデルについて,メトロジーと不確実性定量化の厳密な要件に対して評価する。この評価を容易にするために,多彩な動き速度プロファイルの下で,多種多様なゲージ型(円形,直線,ヴェルニエ)のビデオシーケンスからなる新しいデータセットを提案する。以上の結果から,現在のVLMは針の軌跡や拡張意味論を解釈する能力に限界があることが示唆され,安全クリティカルなモニタリングに必要なトレーサビリティや信頼性が得られなかった。その結果、これらのモデルは、既存のIEEEおよびISO標準の下で、信頼性の高い合成機器として分類するために必要な性能をまだ達成していないことが明らかとなった。

関連論文リスト

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文参考訳（メタデータ） (2026-02-02T07:20:02Z)
Explainability of Point Cloud Neural Networks Using SMILE: Statistical Model-Agnostic Interpretability with Local Explanations [0.0]
本研究は,深層ニューラルネットワーク用に設計された新たな説明可能性手法であるSMILEの実装を,ポイントクラウドベースモデルを用いて検討する。このアプローチは、様々なカーネル幅、摂動数、クラスタリング構成における忠実度損失、R2スコア、ロバストネスの点で優れた性能を示す。カテゴリの分類におけるデータセットバイアスをさらに特定し、安全クリティカルなアプリケーションにおいてより包括的なデータセットの必要性を強調した。
論文参考訳（メタデータ） (2024-10-20T12:13:59Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文参考訳（メタデータ） (2024-07-11T17:59:22Z)
Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation [67.18144414660681]
オンラインビジョン・アンド・ランゲージナビゲーション(VLN)のためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。提案手法は,4つのベンチマークにおいて顕著な性能向上を実現する。
論文参考訳（メタデータ） (2023-11-22T07:47:39Z)
Model Monitoring and Robustness of In-Use Machine Learning Models: Quantifying Data Distribution Shifts Using Population Stability Index [2.578242050187029]
我々は、自律運転に関連するコンピュータビジョンの例に注目し、画像にノイズを加えることによって発生するシフトを検出することを目的としている。人口安定指数 (PSI) を, シフトの有無, および実験結果の指標として用いた。
論文参考訳（メタデータ） (2023-02-01T22:06:31Z)
SyMetric: Measuring the Quality of Learnt Hamiltonian Dynamics Inferred from Vision [73.26414295633846]
最近提案されたモデルのクラスは、高次元観測から潜在力学を学習しようと試みている。既存の手法は画像再構成の品質に依存しており、学習した潜在力学の質を常に反映しているわけではない。我々は、基礎となるハミルトン力学が忠実に捕獲されたかどうかのバイナリ指標を含む、一連の新しい尺度を開発する。
論文参考訳（メタデータ） (2021-11-10T23:26:58Z)
Deep Switching State Space Model (DS$^3$M) for Nonlinear Time Series Forecasting with Regime Switching [2.8579459256051316]
我々はDeep Switching State Space Model(DS$3$M)として知られる新しいモデリングフレームワークを紹介する。このフレームワークは、動的に隠された不規則な状態を特定しながら、そのような時系列の正確な予測を行うように設計されている。本研究は,DS$3$Mの短期および長期の予測テストを通じて,シミュレーションおよび実世界の幅広いデータセット上でのDS$3$Mの有効性とレギュラー識別能力を検証する。
論文参考訳（メタデータ） (2021-06-04T08:25:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。