論文の概要: LTD-Bench: Evaluating Large Language Models by Letting Them Draw
- arxiv url: http://arxiv.org/abs/2511.02347v1
- Date: Tue, 04 Nov 2025 08:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.846097
- Title: LTD-Bench: Evaluating Large Language Models by Letting Them Draw
- Title(参考訳): LTD-Bench: テーマの描画による大規模言語モデルの評価
- Authors: Liuhao Lin, Ke Li, Zihan Xu, Yuchen Shi, Yulei Qin, Yan Zhang, Xing Sun, Rongrong Ji,
- Abstract要約: LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
- 参考スコア(独自算出の注目度): 57.237152905238084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current evaluation paradigms for large language models (LLMs) represent a critical blind spot in AI research--relying on opaque numerical metrics that conceal fundamental limitations in spatial reasoning while providing no intuitive understanding of model capabilities. This deficiency creates a dangerous disconnect between reported performance and practical abilities, particularly for applications requiring physical world understanding. We introduce LTD-Bench, a breakthrough benchmark that transforms LLM evaluation from abstract scores to directly observable visual outputs by requiring models to generate drawings through dot matrices or executable code. This approach makes spatial reasoning limitations immediately apparent even to non-experts, bridging the fundamental gap between statistical performance and intuitive assessment. LTD-Bench implements a comprehensive methodology with complementary generation tasks (testing spatial imagination) and recognition tasks (assessing spatial perception) across three progressively challenging difficulty levels, methodically evaluating both directions of the critical language-spatial mapping. Our extensive experiments with state-of-the-art models expose an alarming capability gap: even LLMs achieving impressive results on traditional benchmarks demonstrate profound deficiencies in establishing bidirectional mappings between language and spatial concept--a fundamental limitation that undermines their potential as genuine world models. Furthermore, LTD-Bench's visual outputs enable powerful diagnostic analysis, offering a potential approach to investigate model similarity.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の評価パラダイムは、AI研究における重要な盲点である。
この欠陥は、特に物理世界理解を必要とするアプリケーションにおいて、報告された性能と実用能力の間に危険な断絶をもたらす。
我々は,LCM評価を抽象的なスコアから直接観測可能な視覚出力に変換する,点行列や実行可能コードによる描画をモデルに要求することで,ブレークスルーベンチマークであるLTD-Benchを紹介した。
このアプローチは、統計的性能と直感的評価の基本的なギャップを埋める、非専門家にも空間的推論の制限を直ちに明らかにする。
LTD-Benchは、3つの難易度を総合的に比較し、言語空間マッピングの両方向を体系的に評価し、相補的生成タスク(空間的想像力をテストする)と認識タスク(空間的知覚を評価する)で包括的方法論を実装した。
従来のベンチマークで見事な結果を得るLLMでさえ、言語と空間概念の双方向マッピングを確立する上で、重大な欠陥を示します。
さらに、LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
関連論文リスト
- Multimodal Behavioral Patterns Analysis with Eye-Tracking and LLM-Based Reasoning [12.054910727620154]
視線追跡データは、ユーザの認知状態に関する貴重な洞察を明らかにするが、その構造化された非言語的な性質のために分析することは困難である。
本稿では、視線追跡信号からの認知パターン抽出を促進するために、マルチモーダルな人間-AI協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-24T09:49:53Z) - SpatialViz-Bench: An MLLM Benchmark for Spatial Visualization [44.427830927596204]
SpaceViz-Benchは4つのサブ能力にまたがる12のタスクを持つ空間視覚化のための総合的なベンチマークである。
33種類の最先端MLLMを評価した結果,多彩な性能の変動がみられ,反直感的な結果が得られた。
論文 参考訳(メタデータ) (2025-07-10T10:27:20Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。