論文の概要: DialBench: Towards Accurate Reading Recognition of Pointer Meter using Large Foundation Models
- arxiv url: http://arxiv.org/abs/2511.21982v1
- Date: Wed, 26 Nov 2025 23:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.329852
- Title: DialBench: Towards Accurate Reading Recognition of Pointer Meter using Large Foundation Models
- Title(参考訳): DialBench: 大規模ファンデーションモデルを用いたポインタメータの正確な読み出し認識を目指して
- Authors: Futian Wang, Chaoliu Weng, Xiao Wang, Zhen Chen, Zhicheng Zhao, Jin Tang,
- Abstract要約: 本稿では,RPM-10Kと呼ばれるダイアル読解のための大規模ベンチマークデータセットを提案する。
このデータセットに基づいて、MRLMと呼ばれるポインタメーター読影認識のための新しい視覚言語モデルを提案する。
クロスアテンショナル融合と適応的専門家選択により、モデルはダイヤル構成を解釈し、正確な数値読解を生成する。
- 参考スコア(独自算出の注目度): 16.519805386469944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The precise reading recognition of pointer meters plays a key role in smart power systems, but existing approaches remain fragile due to challenges like reflections, occlusions, dynamic viewing angles, and overly between thin pointers and scale markings. Up to now, this area still lacks large-scale datasets to support the development of robust algorithms. To address these challenges, this paper first presents a new large-scale benchmark dataset for dial reading, termed RPM-10K, which contains 10730 meter images that fully reflect the aforementioned key challenges. Built upon the dataset, we propose a novel vision-language model for pointer meter reading recognition, termed MRLM, based on physical relation injection. Instead of exhaustively learning image-level correlations, MRLM explicitly encodes the geometric and causal relationships between the pointer and the scale, aligning perception with physical reasoning in the spirit of world-model perspectives. Through cross-attentional fusion and adaptive expert selection, the model learns to interpret dial configurations and generate precise numeric readings. Extensive experiments fully validated the effectiveness of our proposed framework on the newly proposed benchmark dataset. Both the dataset and source code will be released on https://github.com/Event-AHU/DialBench
- Abstract(参考訳): ポインタメータの正確な読み取り認識は、スマートパワーシステムにおいて重要な役割を担っているが、リフレクション、オクルージョン、ダイナミックな視角、細いポインターとスケールマーキングの過度な違いなど、既存のアプローチは脆弱なままである。
今のところ、この領域にはロバストなアルゴリズムの開発をサポートする大規模なデータセットがない。
これらの課題に対処するために,本稿ではまず,上記の課題を完全に反映した10730mの画像を含むRPM-10Kという,ダイアル読解のための大規模ベンチマークデータセットを提案する。
本データセットをベースとして,物理的関係注入に基づくMRLMと呼ばれる,ポインタメータ読影認識のための新しい視覚言語モデルを提案する。
MRLMは画像レベルの相関を徹底的に学習する代わりに、ポインタとスケールの間の幾何学的および因果関係を明示的に符号化し、世界モデル視点の精神において知覚と物理的推論を整合させる。
クロスアテンショナル融合と適応的専門家選択により、モデルはダイヤル構成を解釈し、正確な数値読解を生成する。
大規模な実験により、提案したフレームワークが新たに提案されたベンチマークデータセット上での有効性を十分に検証した。
データセットとソースコードはhttps://github.com/Event-AHU/DialBenchでリリースされる。
関連論文リスト
- Do Vision-Language Models Measure Up? Benchmarking Visual Measurement Reading with MeasureBench [4.095423692230828]
Measure-Benchは、実世界と合成された様々な種類の計測画像の両方をカバーする、視覚的計測読影のベンチマークである。
我々のパイプラインは、制御可能な視覚的外観を持つ特定タイプのゲージを手続き的に生成する。
論文 参考訳(メタデータ) (2025-10-30T17:20:51Z) - OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。
効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。
複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文 参考訳(メタデータ) (2025-07-10T17:56:07Z) - Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - Oriented Tiny Object Detection: A Dataset, Benchmark, and Dynamic Unbiased Learning [51.170479006249195]
本研究では,新しいデータセット,ベンチマーク,動的粗大な学習手法を提案する。
提案するデータセットであるAI-TOD-Rは、すべてのオブジェクト指向オブジェクト検出データセットの中で最小のオブジェクトサイズを特徴としている。
完全教師付きおよびラベル効率の両アプローチを含む,幅広い検出パラダイムにまたがるベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-16T09:14:32Z) - Zero-Shot Detection of LLM-Generated Text using Token Cohesiveness [6.229124658686219]
我々は,既存のゼロショット検出器を改善するために,トークン凝集性をプラグアンドプレイモジュールとして利用する汎用的なデュアルチャネル検出パラダイムを開発した。
トークンの凝集度を計算するために,ランダムなトークンの削除と意味的差分測定を数ラウンドで行う。
各種データセット,ソースモデル,評価設定の4つの最先端ベース検出器を用いた実験は,提案手法の有効性と汎用性を示す。
論文 参考訳(メタデータ) (2024-09-25T13:18:57Z) - Improved LiDAR Odometry and Mapping using Deep Semantic Segmentation and
Novel Outliers Detection [1.0334138809056097]
高速移動プラットフォームのためのLOAMアーキテクチャに基づくリアルタイムLiDARオドメトリーとマッピングのための新しいフレームワークを提案する。
本フレームワークは,ディープラーニングモデルによって生成された意味情報を用いて,ポイント・ツー・ラインとポイント・ツー・プレーンのマッチングを改善する。
高速動作に対するLiDARオドメトリーのロバスト性に及ぼすマッチング処理の改善効果について検討した。
論文 参考訳(メタデータ) (2024-03-05T16:53:24Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z) - FAIRS -- Soft Focus Generator and Attention for Robust Object
Segmentation from Extreme Points [70.65563691392987]
本稿では,ユーザ入力からオブジェクトのセグメンテーションを極端点と補正クリックの形で生成する手法を提案する。
提案手法は,エクストリームポイント,クリック誘導,修正クリックを原則として組み込んだ,高品質なトレーニングデータを生成する能力とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2020-04-04T22:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。