論文の概要: Can Large Language Models Understand Symbolic Graphics Programs?
- arxiv url: http://arxiv.org/abs/2408.08313v1
- Date: Thu, 15 Aug 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:05:43.249019
- Title: Can Large Language Models Understand Symbolic Graphics Programs?
- Title(参考訳): 大言語モデルはシンボリック・グラフィクス・プログラムを理解することができるか?
- Authors: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf,
- Abstract要約: 我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。
シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。
シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
- 参考スコア(独自算出の注目度): 136.5639211254501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the capabilities of large language models (LLMs) is often challenging, in part, because it is hard to find tasks to which they have not been exposed during training. We take one step to address this challenge by turning to a new task: focusing on symbolic graphics programs, which are a popular representation for graphics content that procedurally generates visual data. LLMs have shown exciting promise towards program synthesis, but do they understand symbolic graphics programs? Unlike conventional programs, symbolic graphics programs can be translated to graphics content. Here, we characterize an LLM's understanding of symbolic programs in terms of their ability to answer questions related to the graphics content. This task is challenging as the questions are difficult to answer from the symbolic programs alone -- yet, they would be easy to answer from the corresponding graphics content as we verify through a human experiment. To understand symbolic programs, LLMs may need to possess the ability to imagine how the corresponding graphics content would look without directly accessing the rendered visual content. We use this task to evaluate LLMs by creating a large benchmark for the semantic understanding of symbolic graphics programs. This benchmark is built via program-graphics correspondence, hence requiring minimal human efforts. We evaluate current LLMs on our benchmark to elucidate a preliminary assessment of their ability to reason about visual scenes from programs. We find that this task distinguishes existing LLMs and models considered good at reasoning perform better. Lastly, we introduce Symbolic Instruction Tuning (SIT) to improve this ability. Specifically, we query GPT4-o with questions and images generated by symbolic programs. Such data are then used to finetune an LLM. We also find that SIT data can improve the general instruction following ability of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)の能力を評価することは、トレーニング中に公開されていないタスクを見つけるのが難しいため、しばしば難しい。
視覚データを手続き的に生成するグラフィックコンテンツの一般的な表現であるシンボリックグラフィックプログラムに焦点を合わせることで、この課題に対処する1つのステップを踏み出す。
LLMは、プログラム合成に対するエキサイティングな約束を示しているが、シンボリックグラフィックプログラムは理解しているだろうか?
従来のプログラムとは異なり、シンボリックグラフィックスプログラムはグラフィックコンテンツに変換できる。
本稿では,グラフィックコンテンツに関する疑問に答える能力の観点から,LLMの象徴的プログラムに対する理解を特徴付ける。
問題はシンボリックプログラムだけでは答えが難しいため、このタスクは難しい。しかし、人間の実験を通じて検証すると、対応するグラフィックコンテンツから答えるのは簡単だろう。
シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。
シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
このベンチマークはプログラム-グラフィック対応によって構築されるため、人間の努力は最小限に抑えられる。
我々は,プログラムから視覚シーンを判断する能力の予備的評価を行うため,ベンチマーク上の現在のLCMを評価した。
このタスクは既存のLCMと推論が優れていると判断されたモデルとを区別する。
最後に,シンボリック・インストラクション・チューニング(SIT)を導入し,その能力を向上させる。
具体的には、GPT4-oに、シンボリックプログラムによって生成された質問やイメージを問い合わせる。
このようなデータは、LSMを微調整するために使用される。
また,SITデータによりLLMの処理能力の向上が期待できる。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions [2.377308748205625]
我々は,LLMが生成したコードから生成されたQLCに応答する,最先端のLCMの能力について検討する。
この結果から,現在最先端のLCMではプログラム作成やプログラム実行の追跡が可能であるが,初心者プログラマが記録した類似のエラーに容易に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T20:37:00Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - A Picture Is Worth a Thousand Words: Exploring Diagram and Video-Based
OOP Exercises to Counter LLM Over-Reliance [2.1490831374964587]
大規模言語モデル(LLM)は、テキストベースの仕様で、より複雑なオブジェクト指向プログラミング(OOP)の課題を効果的に解決することができる。
これは、学生がこれらのモデルを使って非倫理的に課題を完了させるため、学術的完全性に対する懸念を提起する。
本稿では,OOP の授業において,学生の課題解決を奨励し,学生をコピー・アンド・プロンプト・アプローチから遠ざける方法として,図表やビデオを用いてOOP タスクを定式化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T10:21:29Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Ask and You Shall Receive (a Graph Drawing): Testing ChatGPT's Potential
to Apply Graph Layout Algorithms [12.328414568667037]
大規模言語モデル(LLM)は、最近、嵐によって世界を席巻した。
LLMの膨大なデータから学習し、複雑な操作を適用する能力は、興味深いグラフ描画結果をもたらす可能性がある。
自然言語の仕様により、より広い範囲のユーザにとって、データの視覚化がよりアクセスしやすく、ユーザフレンドリになる。
論文 参考訳(メタデータ) (2023-03-03T04:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。