論文の概要: LLM Code Customization with Visual Results: A Benchmark on TikZ
- arxiv url: http://arxiv.org/abs/2505.04670v2
- Date: Wed, 04 Jun 2025 12:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.992623
- Title: LLM Code Customization with Visual Results: A Benchmark on TikZ
- Title(参考訳): ビジュアル結果によるLLMコードのカスタマイズ: TikZのベンチマーク
- Authors: Charly Reux, Mathieu Acher, Djamel Eddine Khelladi, Olivier Barais, Clément Quinton,
- Abstract要約: 我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。
我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
- 参考スコア(独自算出の注目度): 6.3303908500560615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of AI-based code generation, customizing existing code out of natural language instructions to modify visual results -such as figures or images -has become possible, promising to reduce the need for deep programming expertise. However, even experienced developers can struggle with this task, as it requires identifying relevant code regions (feature location), generating valid code variants, and ensuring the modifications reliably align with user intent. In this paper, we introduce vTikZ, the first benchmark designed to evaluate the ability of Large Language Models (LLMs) to customize code while preserving coherent visual outcomes. Our benchmark consists of carefully curated vTikZ editing scenarios, parameterized ground truths, and a reviewing tool that leverages visual feedback to assess correctness. Empirical evaluation with stateof-the-art LLMs shows that existing solutions struggle to reliably modify code in alignment with visual intent, highlighting a gap in current AI-assisted code editing approaches. We argue that vTikZ opens new research directions for integrating LLMs with visual feedback mechanisms to improve code customization tasks in various domains beyond TikZ, including image processing, art creation, Web design, and 3D modeling.
- Abstract(参考訳): AIベースのコード生成の台頭により、自然言語命令から既存のコードをカスタマイズして視覚的な結果(図や画像など)を変更することが可能になり、深いプログラミング専門知識の必要性を減らすことが期待されている。
しかし、経験豊富な開発者でさえ、関連するコード領域(フィーチャーロケーション)を特定し、有効なコードバリアントを生成し、修正がユーザの意図に確実に適合するようにする必要があるため、このタスクに苦労する可能性がある。
本稿では,Large Language Models (LLMs) のコードカスタマイズ能力を評価するために設計された最初のベンチマークであるvTikZを紹介する。
我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
最先端のLLMによる実証的な評価は、既存のソリューションが視覚的意図に従ってコードを確実に修正するのに苦労していることを示し、現在のAI支援コード編集アプローチのギャップを浮き彫りにしている。
画像処理,アート作成,Webデザイン,3Dモデリングなど,TikZ以外の領域におけるコードカスタマイズタスクを改善するために,LLMと視覚フィードバック機構を統合するための新たな研究方向が開かれたことを論じる。
関連論文リスト
- CodeVision: Detecting LLM-Generated Code Using 2D Token Probability Maps and Vision Models [28.711745671275477]
大規模言語モデル(LLM)の台頭により、自動コード生成が大幅に改善され、ソフトウェア開発の効率が向上した。
事前訓練されたモデルや透かしなどの既存の検出方法は、適応性と計算効率の制限に直面している。
本稿では,視覚モデルと組み合わせた2次元トークン確率マップを用いた新しい検出手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T06:15:10Z) - EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing [27.578516354454063]
EVLM (Editing Vision-Language Model) は、参照視覚とともに曖昧な指示を解釈するように設計されている。
EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。
画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMが一貫性のある高品質な命令を生成することを示している。
論文 参考訳(メタデータ) (2024-12-13T21:15:01Z) - ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。
ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文 参考訳(メタデータ) (2024-11-28T05:51:45Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。