Fugu-MT 論文翻訳(概要): LLM Code Customization with Visual Results: A Benchmark on TikZ

論文の概要: LLM Code Customization with Visual Results: A Benchmark on TikZ

arxiv url: http://arxiv.org/abs/2505.04670v2
Date: Wed, 04 Jun 2025 12:57:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 16:24:48.992623
Title: LLM Code Customization with Visual Results: A Benchmark on TikZ
Title（参考訳）: ビジュアル結果によるLLMコードのカスタマイズ: TikZのベンチマーク
Authors: Charly Reux, Mathieu Acher, Djamel Eddine Khelladi, Olivier Barais, Clément Quinton,
Abstract要約: 我々は,協調的な視覚的成果を保ちながらコードをカスタマイズする大規模言語モデルの能力を評価する最初のベンチマークであるvTikZを紹介した。我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。
参考スコア（独自算出の注目度）: 6.3303908500560615
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the rise of AI-based code generation, customizing existing code out of natural language instructions to modify visual results -such as figures or images -has become possible, promising to reduce the need for deep programming expertise. However, even experienced developers can struggle with this task, as it requires identifying relevant code regions (feature location), generating valid code variants, and ensuring the modifications reliably align with user intent. In this paper, we introduce vTikZ, the first benchmark designed to evaluate the ability of Large Language Models (LLMs) to customize code while preserving coherent visual outcomes. Our benchmark consists of carefully curated vTikZ editing scenarios, parameterized ground truths, and a reviewing tool that leverages visual feedback to assess correctness. Empirical evaluation with stateof-the-art LLMs shows that existing solutions struggle to reliably modify code in alignment with visual intent, highlighting a gap in current AI-assisted code editing approaches. We argue that vTikZ opens new research directions for integrating LLMs with visual feedback mechanisms to improve code customization tasks in various domains beyond TikZ, including image processing, art creation, Web design, and 3D modeling.
Abstract（参考訳）: AIベースのコード生成の台頭により、自然言語命令から既存のコードをカスタマイズして視覚的な結果(図や画像など)を変更することが可能になり、深いプログラミング専門知識の必要性を減らすことが期待されている。しかし、経験豊富な開発者でさえ、関連するコード領域(フィーチャーロケーション)を特定し、有効なコードバリアントを生成し、修正がユーザの意図に確実に適合するようにする必要があるため、このタスクに苦労する可能性がある。本稿では,Large Language Models (LLMs) のコードカスタマイズ能力を評価するために設計された最初のベンチマークであるvTikZを紹介する。我々のベンチマークは、慎重にキュレートされたvTikZ編集シナリオ、パラメータ化された基底真理、そして視覚フィードバックを利用して正当性を評価するレビューツールから構成されている。最先端のLLMによる実証的な評価は、既存のソリューションが視覚的意図に従ってコードを確実に修正するのに苦労していることを示し、現在のAI支援コード編集アプローチのギャップを浮き彫りにしている。画像処理,アート作成,Webデザイン,3Dモデリングなど,TikZ以外の領域におけるコードカスタマイズタスクを改善するために,LLMと視覚フィードバック機構を統合するための新たな研究方向が開かれたことを論じる。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
Augmenting Large Language Models with Static Code Analysis for Automated Code Quality Improvements [0.36832029288386137]
本研究では,大規模言語モデル(LLM)をソフトウェア開発に組み込んだコード問題検出と修正自動化について検討した。静的コード分析フレームワークは、大規模なソフトウェアプロジェクトの中でバグや脆弱性、コードの臭いなどの問題を検出する。検索拡張世代(RAG)は、リビジョンの関連性と精度を高めるために実装される。
論文参考訳（メタデータ） (2025-06-12T03:39:25Z)
CodeVision: Detecting LLM-Generated Code Using 2D Token Probability Maps and Vision Models [28.711745671275477]
大規模言語モデル(LLM)の台頭により、自動コード生成が大幅に改善され、ソフトウェア開発の効率が向上した。事前訓練されたモデルや透かしなどの既存の検出方法は、適応性と計算効率の制限に直面している。本稿では,視覚モデルと組み合わせた2次元トークン確率マップを用いた新しい検出手法を提案する。
論文参考訳（メタデータ） (2025-01-06T06:15:10Z)
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing [27.578516354454063]
EVLM (Editing Vision-Language Model) は、参照視覚とともに曖昧な指示を解釈するように設計されている。 EVLMはバイナリラベルを必要とせずに主観的な編集の好みをキャプチャする。画像、ビデオ、3D、および4D編集タスクにわたる実験は、EVLMが一貫性のある高品質な命令を生成することを示している。
論文参考訳（メタデータ） (2024-12-13T21:15:01Z)
ScratchEval: Are GPT-4o Smarter than My Child? Evaluating Large Multimodal Models with Visual Programming Challenges [20.316852491762788]
LMMの視覚的プログラミング推論能力を評価するための新しいベンチマークであるScratchEvalを提案する。 ScratchEvalは、子どものプログラミング教育で広く使われているブロックベースのビジュアルプログラミング言語である。
論文参考訳（メタデータ） (2024-11-28T05:51:45Z)
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文参考訳（メタデータ） (2024-10-18T03:34:32Z)
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。 5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文参考訳（メタデータ） (2024-04-04T15:49:49Z)
Predicting Defective Visual Code Changes in a Multi-Language AAA Video Game Project [54.20154707138088]
視覚的コードメトリクスを含む視覚的コード欠陥予測モデルの構築に注力する。我々は,AAAビデオゲームプロジェクトにおける歴史的不可知性から抽出した特徴を用いて,我々のモデルを検証した。欠陥予測モデルでは,ROC曲線の下での面積で全体の性能が向上することがわかった。
論文参考訳（メタデータ） (2023-09-07T00:18:43Z)
Identifying Defect-Inducing Changes in Visual Code [54.20154707138088]
SZZ-VC (SZZ Visual Code) は, ラインの違いではなくグラフィカル要素の違いに基づいて, 視覚的コードの変化を検知するアルゴリズムである。業界製AAAビデオゲームのアルゴリズムを検証し、12のオープンソースプロジェクトで20の音楽ヴィジュアルプログラミングの欠陥を検証した。
論文参考訳（メタデータ） (2023-09-07T00:12:28Z)
Visually-augmented pretrained language models for NLP tasks without images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文参考訳（メタデータ） (2022-12-15T16:13:25Z)
Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文参考訳（メタデータ） (2022-07-06T17:02:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。