論文の概要: Can Large Language Models Understand Symbolic Graphics Programs?
- arxiv url: http://arxiv.org/abs/2408.08313v2
- Date: Mon, 07 Oct 2024 08:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:59.326971
- Title: Can Large Language Models Understand Symbolic Graphics Programs?
- Title(参考訳): 大言語モデルはシンボリック・グラフィクス・プログラムを理解することができるか?
- Authors: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf,
- Abstract要約: シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。
シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。
LLMの推理性能は概して優れていた。
- 参考スコア(独自算出の注目度): 136.5639211254501
- License:
- Abstract: Against the backdrop of enthusiasm for large language models (LLMs), there is an urgent need to scientifically assess their capabilities and shortcomings. This is nontrivial in part because it is difficult to find tasks which the models have not encountered during training. Utilizing symbolic graphics programs, we propose a domain well-suited to test multiple spatial-semantic reasoning skills of LLMs. Popular in computer graphics, these programs procedurally generate visual data. While LLMs exhibit impressive skills in general program synthesis and analysis, symbolic graphics programs offer a new layer of evaluation: they allow us to test an LLM's ability to answer different-grained semantic-level questions of the images or 3D geometries without a vision encoder. To semantically understand the symbolic programs, LLMs would need to possess the ability to "imagine" and reason how the corresponding graphics content would look with only the symbolic description. We use this task to evaluate LLMs by creating a large benchmark for the semantic visual understanding of symbolic graphics programs, built procedurally with minimal human effort. Particular emphasis is placed on transformations of images that leave the image level semantics invariant while introducing significant changes to the underlying program. We evaluate commercial and open-source LLMs on our benchmark to assess their ability to reason about visual output of programs, finding that LLMs considered stronger at reasoning generally perform better. Lastly, we introduce a novel method to improve this ability -- Symbolic Instruction Tuning (SIT), in which the LLM is finetuned with pre-collected instruction data on symbolic graphics programs. Interestingly, we find that SIT not only improves LLM's understanding on symbolic programs, but it also improves general reasoning ability on various other benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)に対する熱意の背景には、その能力と欠点を科学的に評価する必要がある。
これは、トレーニング中にモデルが遭遇していないタスクを見つけるのが難しいという理由もある。
シンボリックグラフィックスプログラムを用いて,LLMの複数の空間意味推論スキルをテストするのに適した領域を提案する。
コンピュータグラフィックスで人気のあるこれらのプログラムは、手続き的に視覚データを生成する。
LLMは、一般的なプログラム合成と解析の優れたスキルを示すが、シンボルグラフィックプログラムは、視覚エンコーダを使わずに、画像や3次元幾何学の異なる粒度のセマンティックレベルの質問に答えるLLMの能力をテストできるという、新しい評価層を提供する。
記号プログラムを意味的に理解するためには、LLMは「想像」能力を持ち、対応するグラフィックコンテンツが記号記述のみでどのように見えるかを推論する必要がある。
我々は、このタスクを用いて、人間の最小限の努力で手続き的に構築されたシンボリックグラフィックスプログラムの視覚的意味理解のための大規模なベンチマークを作成することで、LCMを評価する。
特に、基礎となるプログラムに大幅な変更を加えながら、画像レベルのセマンティクスを不変にしておくイメージの変換に重点を置いている。
我々は,プログラムの視覚的アウトプットを推論する能力を評価するため,商業用およびオープンソース用LCMをベンチマークで評価した。
最後に,SIT(Symbolic Instruction Tuning)と呼ばれる,SIT(Symbolic Instruction Tuning)という,SIT(Symbolic Instruction Tuning)機能を改善する新しい手法を提案する。
興味深いことに、SITはLLMのシンボリックプログラムに対する理解を改善するだけでなく、他の様々なベンチマークにおける一般的な推論能力も向上させる。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Let's Ask AI About Their Programs: Exploring ChatGPT's Answers To Program Comprehension Questions [2.377308748205625]
我々は,LLMが生成したコードから生成されたQLCに応答する,最先端のLCMの能力について検討する。
この結果から,現在最先端のLCMではプログラム作成やプログラム実行の追跡が可能であるが,初心者プログラマが記録した類似のエラーに容易に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-04-17T20:37:00Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - A Picture Is Worth a Thousand Words: Exploring Diagram and Video-Based
OOP Exercises to Counter LLM Over-Reliance [2.1490831374964587]
大規模言語モデル(LLM)は、テキストベースの仕様で、より複雑なオブジェクト指向プログラミング(OOP)の課題を効果的に解決することができる。
これは、学生がこれらのモデルを使って非倫理的に課題を完了させるため、学術的完全性に対する懸念を提起する。
本稿では,OOP の授業において,学生の課題解決を奨励し,学生をコピー・アンド・プロンプト・アプローチから遠ざける方法として,図表やビデオを用いてOOP タスクを定式化する革新的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-13T10:21:29Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z) - Ask and You Shall Receive (a Graph Drawing): Testing ChatGPT's Potential
to Apply Graph Layout Algorithms [12.328414568667037]
大規模言語モデル(LLM)は、最近、嵐によって世界を席巻した。
LLMの膨大なデータから学習し、複雑な操作を適用する能力は、興味深いグラフ描画結果をもたらす可能性がある。
自然言語の仕様により、より広い範囲のユーザにとって、データの視覚化がよりアクセスしやすく、ユーザフレンドリになる。
論文 参考訳(メタデータ) (2023-03-03T04:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。