論文の概要: ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text
- arxiv url: http://arxiv.org/abs/2512.04125v1
- Date: Tue, 02 Dec 2025 20:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.802173
- Title: ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text
- Title(参考訳): ASCIIBench:ビジュアル指向テキストの言語モデルに基づく理解の評価
- Authors: Kerry Luo, Michael Fu, Joshua Peguero, Husnain Malik, Anvay Patil, Joyce Lin, Megan Van Overborg, Ryan Sarmiento, Kevin Zhu,
- Abstract要約: 我々は、ASCII-text画像の生成と分類を評価するための新しいベンチマークであるASCIIBenchを紹介する。
以上の結果から,CLIP埋め込みのコサイン類似性は,ほとんどのASCIIカテゴリを分離できないことがわかった。
これらの知見は, ASCIIアートをマルチモーダル表現のストレステストとして位置づけた。
- 参考スコア(独自算出の注目度): 3.7458289725370855
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated several emergent behaviors with scale, including reasoning and fluency in long-form text generation. However, they continue to struggle with tasks requiring precise spatial and positional reasoning. ASCII art, a symbolic medium where characters encode structure and form, provides a unique probe of this limitation. We introduce ASCIIBench, a novel benchmark for evaluating both the generation and classification of ASCII-text images. ASCIIBench consists of a filtered dataset of 5,315 class-labeled ASCII images and is, to our knowledge, the first publicly available benchmark of its kind. Alongside the dataset, we release weights for a fine-tuned CLIP model adapted to capture ASCII structure, enabling the evaluation of LLM-generated ASCII art. Our analysis shows that cosine similarity over CLIP embeddings fails to separate most ASCII categories, yielding chance-level performance even for low-variance classes. In contrast, classes with high internal mean similarity exhibit clear discriminability, revealing that the bottleneck lies in representation rather than generational variance. These findings position ASCII art as a stress test for multimodal representations and motivate the development of new embedding methods or evaluation metrics tailored to symbolic visual modalities. All resources are available at https://github.com/ASCIIBench/ASCIIBench.
- Abstract(参考訳): 大規模言語モデル(LLM)は、長文生成における推論や流布を含むいくつかの創発的な行動を示す。
しかし、彼らは正確な空間的および位置的推論を必要とするタスクと闘い続けている。
ASCIIアートは、文字が構造と形をエンコードする象徴的な媒体であり、この制限のユニークなプローブを提供する。
我々は、ASCII-text画像の生成と分類の両方を評価するための新しいベンチマークであるASCIIBenchを紹介する。
ASCIIBenchは、5,315のクラスラベルのASCIIイメージからなるフィルタリングデータセットで構成されており、私たちの知る限り、この種のベンチマークとしては初めての公開されています。
データセットの他に, ASCII構造を捉えた微調整CLIPモデルの重み付けを行い, LLM生成した ASCII アートの評価を可能にする。
分析の結果,CLIP埋め込みに対するコサイン類似性は,ほとんどのASCIIカテゴリを分離できず,低分散クラスにおいても確率レベルの性能が得られることがわかった。
対照的に、内部平均類似度が高いクラスは明らかな識別可能性を示し、ボトルネックは世代差ではなく表現にあることを示した。
これらの知見は、ASCIIアートをマルチモーダル表現のストレステストとして位置づけ、象徴的な視覚的モダリティに合わせた新しい埋め込み手法や評価指標の開発を動機付けている。
すべてのリソースはhttps://github.com/ASCIIBench/ASCIIBenchで入手できる。
関連論文リスト
- Evaluating Machine Learning Approaches for ASCII Art Generation [0.0]
本稿では、構造化されたASCIIアートを生成するための最新の機械学習手法の適用について検討する。
我々は、忠実度、文字分類精度、出力品質の3つの重要な基準に焦点を当てる。
以上の結果から、複雑なニューラルネットワークアーキテクチャは、高品質のASCIIアートの作成に不足することが多いことが分かる。
論文 参考訳(メタデータ) (2025-03-18T16:07:29Z) - Classification Done Right for Vision-Language Pre-Training [66.90286715149786]
画像テキストデータに基づく視覚言語事前学習のための超単純な分類法であるSuperClassを紹介する。
SuperClassは、トークン化された生テキストを、追加のテキストフィルタリングや選択を必要とせずに、教師付き分類ラベルとして直接利用する。
SuperClassは、古典的なコンピュータビジョンベンチマークやビジョン言語ダウンストリームタスクなど、さまざまなダウンストリームタスクで優れたパフォーマンスを示した。
論文 参考訳(メタデータ) (2024-11-05T18:58:15Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - GET: Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。