論文の概要: Have Multimodal Large Language Models (MLLMs) Really Learned to Tell the Time on Analog Clocks?
- arxiv url: http://arxiv.org/abs/2505.10862v1
- Date: Fri, 16 May 2025 05:04:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.08068
- Title: Have Multimodal Large Language Models (MLLMs) Really Learned to Tell the Time on Analog Clocks?
- Title(参考訳): マルチモーダル大規模言語モデル(MLLM)は、アナログクロックの時間を伝えることを本当に学んだか?
- Authors: Tairan Fu, Miguel González, Javier Conde, Elena Merino-Gómez, Pedro Reviriego,
- Abstract要約: 画像上の複雑な疑問に答えられる多モーダル大規模言語モデルでは、アナログクロックの時間を知るのに苦労する。
これはおそらく、トレーニングセットの異なる時間におけるクロックによるイメージの欠如によるものだ。
本研究では、MLLMの抽象化と一般化の限界を説明するために、異なるクロックを持つテストにモデルを配置する。
- 参考スコア(独自算出の注目度): 3.297182592932918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models which can answer complex questions on an image struggle to tell the time on analog clocks. This is probably due to the lack of images with clocks at different times in their training set. In this work we explore this issue with one of the latest MLLMs: GPT-4.1 to understand why MLLMs fail to tell the time and whether fine-tuning can solve the problem. The results show how models are making progress in reading the time on analog clocks. But have they really learned to do it, or have they only learned patterns in their training datasets? In this work we put the models to the test with different clocks to illustrate the limitations of MLLMs to abstract and generalize.
- Abstract(参考訳): 画像上の複雑な疑問に答えられる多モーダル大規模言語モデルでは、アナログクロックの時間を知るのに苦労する。
これはおそらく、トレーニングセットの異なる時間におけるクロックによるイメージの欠如によるものだ。
GPT-4.1は、なぜMLLMが時間や微調整が問題を解くことができないのかを理解するためのものである。
結果は、モデルがアナログ時計で時間を読むのにどのように進歩しているかを示している。
あるいは、トレーニングデータセットでパターンしか学ばなかったのでしょうか?
本研究では、MLLMの抽象化と一般化の限界を説明するために、異なるクロックを持つテストにモデルを配置する。
関連論文リスト
- How Important are Videos for Training Video LLMs? [55.965474658745315]
画像のみのトレーニングでは,ビデオLLMの方が時間的推論能力が高いことが示唆された。
本稿では,注釈付き画像のシーケンスと時間的機能に着目した質問を含む簡易な微調整手法を提案する。
これは、現在のモデルによるリアルタイムビデオに見られる豊富な時間的特徴の最適部分利用を示唆している。
論文 参考訳(メタデータ) (2025-06-07T21:32:19Z) - MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding [55.32878803528196]
ビデオの時間的理解は、マルチモーダルな大言語モデル(MLLM)において、ビデオ内のイベントを推論するために不可欠である。
タイムスタンプを意識したマルチセグメントグラウンドの導入により時間的理解を高める新しいRLに基づくMUSEGを提案する。
効果的な学習を容易にするため,段階的な報酬付きRL学習レシピを設計し,時間的根拠に基づく推論に向けてモデルを段階的に導く。
論文 参考訳(メタデータ) (2025-05-27T04:50:07Z) - Visual Chronicles: Using Multimodal LLMs to Analyze Massive Collections of Images [58.38037252899024]
我々は,Multimodal LLMを用いて,数千万枚の画像からなる大規模データベースを解析するシステムを提案する。
我々は,一定期間にわたって都市を横断する頻繁な共起的変化(トリエント)を捉えることを目的としている。
ベースラインをはるかに上回り、大都市で撮影された画像から興味深い傾向を見出すことができる。
論文 参考訳(メタデータ) (2025-04-11T17:55:45Z) - Can Multimodal LLMs Perform Time Series Anomaly Detection? [55.534264764673296]
時系列異常検出(TSAD)におけるMLLM評価のためのVisualTimeAnomalyベンチマークを提案する。
提案手法は時系列の数値データを画像形式に変換し,これらの画像を様々なMLLMにフィードする。
VisualTimeAnomalyには3つのシナリオと3つの異常な粒度の12.4kの時系列イメージがあり、8つのMLLMに9つの異常型がある。
論文 参考訳(メタデータ) (2025-02-25T03:37:43Z) - Lost in Time: Clock and Calendar Understanding Challenges in Multimodal LLMs [9.34626518802604]
我々は,MLLMが時間関連視覚データを提示した場合に,視覚認識,数値推論,時間的推論をどのように行うかを分析することを目的とする。
評価の結果,近年の進歩にもかかわらず,時間的理解はMLLMにとって重要な課題であることがわかった。
論文 参考訳(メタデータ) (2025-02-07T17:11:23Z) - A Picture is Worth A Thousand Numbers: Enabling LLMs Reason about Time Series via Visualization [38.843506917740115]
我々は,大規模言語モデルの時系列推論(TsR)性能を評価するための,最初の総合的なテストベッドであるTimerBedを提案する。
そこで本稿では,可視化モデルデータと言語誘導推論を用いたプロンプトベースのVL-Timeを提案する。
論文 参考訳(メタデータ) (2024-11-09T00:35:29Z) - TimeSeriesExam: A time series understanding exam [18.06147400795917]
TimeSeriesExamは700以上の質問で構成され、104の慎重にキュレートされたテンプレートを使用して手続き的に生成される。
我々は、TimeSeriesExam上で7つの最先端LCMをテストし、時系列理解能力の総合的な評価を初めて提供する。
論文 参考訳(メタデータ) (2024-10-18T02:37:14Z) - Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs [4.408456252353348]
MLLM(Multimodal Large Language Models)は、現実世界の深い理解を示し、複雑なタスクを処理できる。
この記事では、この問題を深く掘り下げて、モデルが簡単な質問に答えるのが困難であることを明らかにする。
難解な質問と単純な質問の間のこのモデル行動の相違を、モデル怠慢(model laziness)と呼ぶ。
論文 参考訳(メタデータ) (2024-10-15T09:40:50Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。
イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。
これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文 参考訳(メタデータ) (2023-11-14T18:57:15Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - It's About Time: Analog Clock Reading in the Wild [93.84801062680786]
自然画像やビデオでアナログクロックを読むためのフレームワークを提案する。
我々は、合成クロックを生成するためのスケーラブルなパイプラインを作成し、労働集約アノテーションの要求を大幅に削減する。
提案した合成データセットに基づいてトレーニングしたモデルは、精度良く実時計に向けて一般化されていることを示す。
論文 参考訳(メタデータ) (2021-11-17T14:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。