Fugu-MT 論文翻訳(概要): It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

論文の概要: It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models

arxiv url: http://arxiv.org/abs/2603.08011v1
Date: Mon, 09 Mar 2026 06:33:49 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.603479
Title: It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models
Title（参考訳）: アナログクロック読解とクロックハンド空間共振を視覚言語モデルで改善する時が来た
Authors: Jaeha Choi, Jin Won Lee, Siwoo You, Jangho Lee,
Abstract要約: アナログクロックを現実世界の環境で読むことは、最先端のビジョン言語モデルにとって重要な課題である。我々はTickTockVQAを紹介した。TickTockVQAは、さまざまな実世界のシナリオでアナログクロックを含む人間アノテーション付きデータセットである。スワップDPO(Swap-DPO)は、モデル推論を正確な時間解釈に合わせるための、直接選好最適化に基づく微調整フレームワークである。
参考スコア（独自算出の注目度）: 1.8502648146670075
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Advances in vision-language models (VLMs) have achieved remarkable success on complex multimodal reasoning tasks, leading to the assumption that they should also excel at reading analog clocks. However, contrary to this expectation, our study reveals that reading analog clocks in real-world environments remains a significant challenge for state-of-the-art VLMs. Existing analog clock datasets are largely synthetic or planar with limited stylistic diversity and minimal background context, failing to capture the visual variability of real-world scenes. As a result, VLMs trained on such data exhibit weak spatial-temporal reasoning, frequently confusing the hour and minute hands and struggling under common visual conditions such as occlusion, lighting variation, and cluttered backgrounds. To address this issue, we introduce TickTockVQA, a human-annotated dataset containing analog clocks in diverse real-world scenarios. TickTockVQA provides explicit hour and minute annotations, and includes an AM/PM tag when it is inferable from the visual context. Furthermore, we propose Swap-DPO, a direct preference optimization based fine-tuning framework to align model reasoning toward accurate time interpretation. Experimental results demonstrate that our approach substantially enhances clock reading accuracy and robustness under real-world conditions, establishing a foundation for future research on spatial-temporal reasoning and visual understanding in VLMs.
Abstract（参考訳）: 視覚言語モデル(VLM)の進歩は、複雑なマルチモーダル推論タスクにおいて顕著な成功を収めており、アナログクロックの読み込みにも優れていると仮定されている。しかし、この期待に反して、実世界の環境でアナログ時計を読むことは、最先端のVLMにとって重要な課題であることが明らかとなった。既存のアナログクロックデータセットは、概ね合成的または平面的であり、スタイリスティックな多様性と背景の最小限のコンテキストを持ち、現実世界のシーンの視覚的変動を捉えていない。結果として、これらのデータに基づいてトレーニングされたVLMは、時空間的推論が弱く、時間と分を混乱させることが多く、閉塞、照明の変動、散らかった背景といった一般的な視覚条件下で苦労する。この問題に対処するために、TickTockVQAを紹介した。TickTockVQAは、さまざまな実世界のシナリオでアナログクロックを含む人間による注釈付きデータセットである。 TickTockVQAは明示的な時間と数分のアノテーションを提供し、視覚的コンテキストから推測できる時にAM/PMタグを含む。さらに,直接選好最適化に基づく微調整フレームワークSwap-DPOを提案する。実験の結果,本手法は実環境下でのクロック読み取り精度とロバスト性を大幅に向上させ,空間的時間的推論とVLMの視覚的理解に関する今後の研究の基礎を築いた。

関連論文リスト

VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection [36.10754425277683]
時系列異常検出(TSAD)では、即時ポイント異常と長距離コンテキスト異常の両方を識別する必要がある。本稿では,視覚的時間的アライメントと動的融合により時間的・視覚的モダリティを統一する,最初のTSADフレームワークであるVETimeを提案する。 VETimeはゼロショットシナリオにおける最先端モデルよりも優れており、現在のビジョンベースアプローチよりも計算オーバーヘッドの少ないローカライズ精度が優れている。
論文参考訳（メタデータ） (2026-02-18T18:22:22Z)
CycliST: A Video Language Model Benchmark for Reasoning on Cyclical State Transitions [35.80224795551762]
本稿では,ビデオ言語モデル(VLM)を,周期的状態遷移に対するテキスト推論能力に基づいて評価するための新しいベンチマークデータセットであるCycleiSTを提案する。我々は、オープンソースとプロプライエタリの両方の最先端のVLMによる広範な実験を行い、循環力学への一般化の限界を明らかにする。以上の結果から,現在のVLMは周期的パターンを確実に検出・活用することが困難であり,時間的理解の欠如,動き中の物体数などのシーンから定量的な洞察を抽出できないことが示唆された。
論文参考訳（メタデータ） (2025-11-30T21:28:41Z)
Harnessing Synthetic Preference Data for Enhancing Temporal Understanding of Video-LLMs [54.502280390499756]
我々はTimeWarpを提案し、モデルからの応答を微調整し、与えられた入力ビデオにフォーカスするよう促すために、ターゲットとなる合成時間データセットを作成する。提案手法を既存モデルに適用すると,時間的理解ベンチマークの性能が大幅に向上することが実証された。
論文参考訳（メタデータ） (2025-10-04T21:48:40Z)
Bridging Past and Future: Distribution-Aware Alignment for Time Series Forecasting [30.686607555300366]
時系列予測のための表現学習フレームワークであるTimeAlignを紹介する。我々は,過去と将来の表現を明示的に整列し,入力履歴と将来の目標との分布的ギャップを埋める。利得は主に、歴史的入力と将来の出力の間の周波数ミスマッチの修正から生じる。
論文参考訳（メタデータ） (2025-09-17T17:12:39Z)
TimeCausality: Evaluating the Causal Ability in Time Dimension for Vision Language Models [13.018267909897014]
時間的因果性、特に現実世界の知識によって支配される物体の不可逆的な変換に関する推論は、人間の視覚的理解の基本的な側面である。時間次元における視覚言語モデル(VLM)の因果推論能力を評価するために設計された新しいベンチマークである textbfTimeCausality を紹介する。現在のSOTAオープンソースVLMは、GPT-4oのようなクローズドソースモデルに匹敵するパフォーマンスレベルを達成していますが、クローズドソースの競合製品と比べてベンチマークに大きく遅れています。
論文参考訳（メタデータ） (2025-05-21T12:18:02Z)
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models [63.12671761097701]
視覚言語モデル(Ms)は、移動距離や移動物体の速度などの要素を分析するのに苦労する。我々はSTKitとST-Benchと呼ばれるベンチマークデータセットを構築した。本稿では,ST-VLMが多様な領域やタスクにまたがって頑健に一般化されていることを示す。
論文参考訳（メタデータ） (2025-03-25T05:08:06Z)
Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。 3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文参考訳（メタデータ） (2023-09-01T13:06:50Z)
OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文参考訳（メタデータ） (2023-06-20T03:02:14Z)
It's About Time: Analog Clock Reading in the Wild [93.84801062680786]
自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
論文参考訳（メタデータ） (2021-11-17T14:52:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。