論文の概要: Have Multimodal Large Language Models (MLLMs) Really Learned to Tell the Time on Analog Clocks?
- arxiv url: http://arxiv.org/abs/2505.10862v1
- Date: Fri, 16 May 2025 05:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.08068
- Title: Have Multimodal Large Language Models (MLLMs) Really Learned to Tell the Time on Analog Clocks?
- Title(参考訳): マルチモーダル大規模言語モデル(MLLM)は、アナログクロックの時間を伝えることを本当に学んだか?
- Authors: Tairan Fu, Miguel González, Javier Conde, Elena Merino-Gómez, Pedro Reviriego,
- Abstract要約: 画像上の複雑な疑問に答えられる多モーダル大規模言語モデルでは、アナログクロックの時間を知るのに苦労する。
これはおそらく、トレーニングセットの異なる時間におけるクロックによるイメージの欠如によるものだ。
本研究では、MLLMの抽象化と一般化の限界を説明するために、異なるクロックを持つテストにモデルを配置する。
- 参考スコア(独自算出の注目度): 3.297182592932918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models which can answer complex questions on an image struggle to tell the time on analog clocks. This is probably due to the lack of images with clocks at different times in their training set. In this work we explore this issue with one of the latest MLLMs: GPT-4.1 to understand why MLLMs fail to tell the time and whether fine-tuning can solve the problem. The results show how models are making progress in reading the time on analog clocks. But have they really learned to do it, or have they only learned patterns in their training datasets? In this work we put the models to the test with different clocks to illustrate the limitations of MLLMs to abstract and generalize.
- Abstract(参考訳): 画像上の複雑な疑問に答えられる多モーダル大規模言語モデルでは、アナログクロックの時間を知るのに苦労する。
これはおそらく、トレーニングセットの異なる時間におけるクロックによるイメージの欠如によるものだ。
GPT-4.1は、なぜMLLMが時間や微調整が問題を解くことができないのかを理解するためのものである。
結果は、モデルがアナログ時計で時間を読むのにどのように進歩しているかを示している。
あるいは、トレーニングデータセットでパターンしか学ばなかったのでしょうか?
本研究では、MLLMの抽象化と一般化の限界を説明するために、異なるクロックを持つテストにモデルを配置する。
関連論文リスト
- Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images [58.38037252899024]
我々は,Multimodal LLMを用いて,数千万枚の画像からなる大規模データベースを解析するシステムを提案する。
我々は,一定期間にわたって都市を横断する頻繁な共起的変化(トリエント)を捉えることを目的としている。
ベースラインをはるかに上回り、大都市で撮影された画像から興味深い傾向を見出すことができる。
論文 参考訳(メタデータ) (2025-04-11T17:55:45Z) - Can Multimodal LLMs Perform Time Series Anomaly Detection? [55.534264764673296]
時系列異常検出(TSAD)におけるMLLM評価のためのVisualTimeAnomalyベンチマークを提案する。
提案手法は時系列の数値データを画像形式に変換し,これらの画像を様々なMLLMにフィードする。
VisualTimeAnomalyには3つのシナリオと3つの異常な粒度の12.4kの時系列イメージがあり、8つのMLLMに9つの異常型がある。
論文 参考訳(メタデータ) (2025-02-25T03:37:43Z) - Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs [9.34626518802604]
我々は,MLLMが時間関連視覚データを提示した場合に,視覚認識,数値推論,時間的推論をどのように行うかを分析することを目的とする。
評価の結果,近年の進歩にもかかわらず,時間的理解はMLLMにとって重要な課題であることがわかった。
論文 参考訳(メタデータ) (2025-02-07T17:11:23Z) - A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。
そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文 参考訳(メタデータ) (2024-11-09T00:35:29Z) - TimeSeriesExam: A time series understanding exam [18.06147400795917]
TimeSeriesExamは700以上の質問で構成され、104の慎重にキュレートされたテンプレートを使用して手続き的に生成される。
我々は、TimeSeriesExam上で7つの最先端LCMをテストし、時系列理解能力の総合的な評価を初めて提供する。
論文 参考訳(メタデータ) (2024-10-18T02:37:14Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - It's About Time: Analog Clock Reading in the Wild [93.84801062680786]
自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。
我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。
提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
論文 参考訳(メタデータ) (2021-11-17T14:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。