論文の概要: Unlocking the Latent Canvas: Eliciting and Benchmarking Symbolic Visual Expression in LLMs
- arxiv url: http://arxiv.org/abs/2603.14505v1
- Date: Sun, 15 Mar 2026 17:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.858333
- Title: Unlocking the Latent Canvas: Eliciting and Benchmarking Symbolic Visual Expression in LLMs
- Title(参考訳): 潜伏キャンバスのアンロック: LLMにおける記号的視覚表現の排除とベンチマーク
- Authors: Yiren Zheng, Shibo Li, Jiaming Liu, Haofan Wang, Yiren Song,
- Abstract要約: 現在のアプローチでは、画像生成を外部プロセスとして扱い、ピクセルレンダリングやコード実行に依存している。
この作業では、コンパクトで効率的でテキストネイティブな視覚フォーマットであるASCIIアートを通じて、この可能性を解き放つ。
SVE-ASCIIは、純粋テキスト空間内で直接Visual Expressionを抽出し、ベンチマークするために設計された統合フレームワークである。
- 参考スコア(独自算出の注目度): 24.67518539705944
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current multimodal approaches predominantly treat visual generation as an external process, relying on pixel rendering or code execution, thereby overlooking the native visual representation capabilities latent within Large Language Models (LLMs). In this work, we unlock this potential through ASCII art, a compact, efficient, and text-native visual format. We introduce SVE-ASCII, a unified framework designed to elicit and benchmark Symbolic Visual Expression directly within the pure text space. To address the scarcity of systematic resources, we construct ASCIIArt-7K, a high-quality dataset synthesized via a novel "Seed-and-Evolve" pipeline that augments human-curated anchors through in-context stylistic editing. We further implement a unified instruction-tuning strategy that jointly optimizes for both Generation (Text-to-ASCII) and Understanding (ASCII-to-Text). Crucially, our experiments reveal a critical phenomenon regarding task duality: while it is established that perception aids generation, we provide compelling evidence that generative training significantly enhances visual comprehension. This confirms a mutually reinforcing cycle in symbolic visual processing, a relationship previously hypothesized but rarely empirically demonstrated in the visual domain. We release our dataset, the ASCIIArt-Bench benchmark, and the SVE-ASCII model, establishing a robust baseline for native text-based visual intelligence.
- Abstract(参考訳): 現在のマルチモーダルアプローチでは、視覚生成を外部プロセスとして扱うことが多く、ピクセルレンダリングやコード実行に依存しているため、Large Language Models (LLMs) に潜むネイティブな視覚表現能力を見落としている。
この作業では、コンパクトで効率的でテキストネイティブな視覚フォーマットであるASCIIアートを通じて、この可能性を解き放つ。
本稿では,SVE-ASCIIについて紹介する。SVE-ASCIIは純粋テキスト空間内で,シンボル的視覚表現を直接抽出し,ベンチマークするための統合フレームワークである。
ASCIIArt-7Kは,テキスト内スタイリスティックな編集によって人為的なアンカーを増強する,新しい"Seed-and-Evolve"パイプラインによって合成された高品質なデータセットである。
我々はさらに、生成(Text-to-ASCII)と理解(ASCII-to-Text)の両方を共同で最適化する統合的な命令調整戦略を実装している。
重要なことは、我々の実験は、タスクの双対性に関する重要な現象を明らかにしている: 知覚が生成を助けることが確立されている一方で、生成的トレーニングが視覚的理解を著しく向上させるという説得力のある証拠を提供する。
これは、前もって仮説化されたが、視覚領域で実証されたことはめったにない、象徴的な視覚処理における相互強化サイクルを確認する。
我々はデータセット、ASCIIArt-Benchベンチマーク、SVE-ASCIIモデルをリリースし、ネイティブテキストベースのビジュアルインテリジェンスのための堅牢なベースラインを確立した。
関連論文リスト
- Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization [50.13408999553116]
テキスト2Vis生成のための最初の強化学習フレームワークであるRL-Text2Visを提案する。
本手法では,テキストの精度,コードの有効性,可視化品質を共同で最適化する新しい多目的報酬を用いている。
その結果,GRPOは可視化生成における構造的マルチモーダル推論の効果的な戦略として確立された。
論文 参考訳(メタデータ) (2026-01-08T04:29:07Z) - ASCIIBench: Evaluating Language-Model-Based Understanding of Visually-Oriented Text [3.7458289725370855]
我々は、ASCII-text画像の生成と分類を評価するための新しいベンチマークであるASCIIBenchを紹介する。
以上の結果から,CLIP埋め込みのコサイン類似性は,ほとんどのASCIIカテゴリを分離できないことがわかった。
これらの知見は, ASCIIアートをマルチモーダル表現のストレステストとして位置づけた。
論文 参考訳(メタデータ) (2025-12-02T20:55:42Z) - Revisit What You See: Disclose Language Prior in Vision Tokens for LVLM Decoding [6.612630497074871]
LVLM(Large Vision-Language Models)は、視覚認識と言語理解を統合することで、マルチモーダルタスクにおける強力なパフォーマンスを実現する。
テキスト生成のガイドとして視覚トークンを参照するトレーニング不要な復号法であるReVisiTを提案する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - AltGen: AI-Driven Alt Text Generation for Enhancing EPUB Accessibility [5.312946761836463]
本稿では,画像用アルトテキストの自動生成を目的とした,AI駆動型パイプラインAltGenを紹介する。
最先端の生成モデルを統合することで、AltGenは文脈的に関連があり、言語的に一貫性のあるアルトテキスト記述を実現する。
実験結果は、さまざまなデータセットにまたがるAltGenの有効性を示し、アクセシビリティエラーを97.5%削減した。
論文 参考訳(メタデータ) (2024-12-30T19:23:07Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。