論文の概要: Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2502.05092v2
- Date: Tue, 18 Mar 2025 11:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 16:29:11.041469
- Title: Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs
- Title(参考訳): ロス・イン・タイム:マルチモーダルLDMにおけるクロックとカレンダー理解の課題
- Authors: Rohit Saxena, Aryo Pradipta Gema, Pasquale Minervini,
- Abstract要約: 我々は,MLLMが時間関連視覚データを提示した場合に,視覚認識,数値推論,時間的推論をどのように行うかを分析することを目的とする。
評価の結果,近年の進歩にもかかわらず,時間的理解はMLLMにとって重要な課題であることがわかった。
- 参考スコア(独自算出の注目度): 9.34626518802604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding time from visual representations is a fundamental cognitive skill, yet it remains a challenge for multimodal large language models (MLLMs). In this work, we investigate the capabilities of MLLMs in interpreting time and date through analogue clocks and yearly calendars. To facilitate this, we curated a structured dataset comprising two subsets: 1) $\textit{ClockQA}$, which comprises various types of clock styles$-$standard, black-dial, no-second-hand, Roman numeral, and arrow-hand clocks$-$paired with time related questions; and 2) $\textit{CalendarQA}$, which consists of yearly calendar images with questions ranging from commonly known dates (e.g., Christmas, New Year's Day) to computationally derived ones (e.g., the 100th or 153rd day of the year). We aim to analyse how MLLMs can perform visual recognition, numerical reasoning, and temporal inference when presented with time-related visual data. Our evaluations show that despite recent advancements, reliably understanding time remains a significant challenge for MLLMs.
- Abstract(参考訳): 視覚表現から時間を理解することは基本的な認知スキルであるが、マルチモーダルな大規模言語モデル(MLLM)では依然として課題である。
本研究では,MLLMがアナログ時計やカレンダーを通して時刻と日付を解釈する能力について検討する。
これを容易にするために、2つのサブセットからなる構造化データセットをキュレートした。
1$\textit{ClockQA}$は、標準、ブラックダイアル、ノーセカンドハンド、ローマ数字、アローハンドの様々な種類のクロックスタイルで構成され、時間関連の質問で$-$ペアリングされる。
2)$\textit{CalendarQA}$は、一般的に知られている日付(例:クリスマス、正月)から計算によって導出された日付(例:100日または153日目)までの質問を含む年次カレンダーイメージで構成されている。
我々は,MLLMが時間関連視覚データを提示した場合に,視覚認識,数値推論,時間的推論をどのように行うかを分析することを目的とする。
評価の結果,近年の進歩にもかかわらず,時間的理解はMLLMにとって重要な課題であることがわかった。
関連論文リスト
- Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images [58.38037252899024]
我々は,Multimodal LLMを用いて,数千万枚の画像からなる大規模データベースを解析するシステムを提案する。
我々は,一定期間にわたって都市を横断する頻繁な共起的変化(トリエント)を捉えることを目的としている。
ベースラインをはるかに上回り、大都市で撮影された画像から興味深い傾向を見出すことができる。
論文 参考訳(メタデータ) (2025-04-11T17:55:45Z) - FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance [79.78247299859656]
FinTMMBenchは、ファイナンスにおける時間対応マルチモーダル検索・拡張生成システムを評価するための、最初の包括的なベンチマークである。
NASDAQ 100社の異種データから構築されたFinTMMBenchには,3つの大きなメリットがある。
論文 参考訳(メタデータ) (2025-03-07T07:13:59Z) - Ticktack : Long Span Temporal Alignment of Large Language Models Leveraging Sexagenary Cycle Time Expression [25.654941426797926]
大規模言語モデル(LLM)は、特に長期にわたって時間的ミスアライメントの問題に悩まされる。
本稿では,LLMの長期的不整合に対処する手法として,Ticktack(ティックタック)を提案する。
論文 参考訳(メタデータ) (2025-03-06T06:59:09Z) - Time-MQA: Time Series Multi-Task Question Answering with Context Enhancement [55.2439260314328]
Time Series Multi-Task Question Answering (Time-MQA)は、複数の時系列タスクにわたる自然言語クエリを可能にする統合フレームワークである。
Time-MQAの中心はTSQAデータセットである。
論文 参考訳(メタデータ) (2025-02-26T13:47:13Z) - Can Multimodal LLMs do Visual Temporal Understanding and Reasoning? The answer is No! [22.75945626401567]
マルチモーダル大言語モデル (MLLM) は視覚質問応答 (VQA) のようなタスクにおいて大きな進歩を遂げた。
しかし、現実世界の力学を理解するのに不可欠である時間的理解のような特定の領域におけるそれらの能力は、いまだ未解明のままである。
本稿では,(1)時間順理解と(2)時間経過推定という2つの部分から構成されるテンポラルVQAという評価ベンチマークを提案する。
論文 参考訳(メタデータ) (2025-01-18T06:41:48Z) - TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models [54.44272772296578]
大規模言語モデル (LLM) は多変量時系列分類において有効であることを示した。
LLM は LLM の潜在空間内の時系列の埋め込みを直接コードし、LLM の意味空間と一致させる。
MTSCを表理解タスクとして再編成するテーブルタイムを提案する。
論文 参考訳(メタデータ) (2024-11-24T07:02:32Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - TimeSeriesExam: A time series understanding exam [18.06147400795917]
TimeSeriesExamは700以上の質問で構成され、104の慎重にキュレートされたテンプレートを使用して手続き的に生成される。
我々は、TimeSeriesExam上で7つの最先端LCMをテストし、時系列理解能力の総合的な評価を初めて提供する。
論文 参考訳(メタデータ) (2024-10-18T02:37:14Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - AI-Assisted Generation of Difficult Math Questions [78.7547836422727]
現在の訓練は、数学的推論をコア能力として位置づけている。
多様で挑戦的な数学の質問には、控えめな需要がある。
本稿では,LLMの強みとHuman-in-the-loopアプローチを組み合わせた設計枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:55:36Z) - Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark [13.490168087823992]
大規模言語モデル(LLM)は、自動時系列分析とレポートの可能性を秘めている。
本稿では時系列データに固有の様々な特徴を記述した重要なフレームワークである時系列特徴の包括的分類法を紹介する。
このデータセットは、コンパイル時系列におけるLCMの熟練度を評価するための確かな基盤として機能する。
論文 参考訳(メタデータ) (2024-04-25T12:24:37Z) - MathVerse: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems? [99.0305256706604]
MLLMの公平かつ詳細な評価のために設計された全周視覚数学ベンチマークであるMathVerseを紹介する。
我々は,2,612の高品位・多目的数学問題を,公開情報源の図を用いて慎重に収集する。
このアプローチにより、MathVerseは、数学的推論のためのビジュアルダイアグラムを、どの程度のMLLMが真に理解できるかを包括的に評価することができる。
論文 参考訳(メタデータ) (2024-03-21T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。