論文の概要: Can Large Language Models Understand Symbolic Graphics Programs?
- arxiv url: http://arxiv.org/abs/2408.08313v1
- Date: Thu, 15 Aug 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:05:43.249019
- Title: Can Large Language Models Understand Symbolic Graphics Programs?
- Title(参考訳): 大言語モデルはシンボリック・グラフィクス・プログラムを理解することができるか?
- Authors: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf,
- Abstract要約: 我々は、グラフィックコンテンツに関連する質問に答える能力の観点から、LLMの象徴的プログラムに対する理解を特徴づける。
シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。
シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
- 参考スコア(独自算出の注目度): 136.5639211254501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Assessing the capabilities of large language models (LLMs) is often challenging, in part, because it is hard to find tasks to which they have not been exposed during training. We take one step to address this challenge by turning to a new task: focusing on symbolic graphics programs, which are a popular representation for graphics content that procedurally generates visual data. LLMs have shown exciting promise towards program synthesis, but do they understand symbolic graphics programs? Unlike conventional programs, symbolic graphics programs can be translated to graphics content. Here, we characterize an LLM's understanding of symbolic programs in terms of their ability to answer questions related to the graphics content. This task is challenging as the questions are difficult to answer from the symbolic programs alone -- yet, they would be easy to answer from the corresponding graphics content as we verify through a human experiment. To understand symbolic programs, LLMs may need to possess the ability to imagine how the corresponding graphics content would look without directly accessing the rendered visual content. We use this task to evaluate LLMs by creating a large benchmark for the semantic understanding of symbolic graphics programs. This benchmark is built via program-graphics correspondence, hence requiring minimal human efforts. We evaluate current LLMs on our benchmark to elucidate a preliminary assessment of their ability to reason about visual scenes from programs. We find that this task distinguishes existing LLMs and models considered good at reasoning perform better. Lastly, we introduce Symbolic Instruction Tuning (SIT) to improve this ability. Specifically, we query GPT4-o with questions and images generated by symbolic programs. Such data are then used to finetune an LLM. We also find that SIT data can improve the general instruction following ability of LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)の能力を評価することは、トレーニング中に公開されていないタスクを見つけるのが難しいため、しばしば難しい。
視覚データを手続き的に生成するグラフィックコンテンツの一般的な表現であるシンボリックグラフィックプログラムに焦点を合わせることで、この課題に対処する1つのステップを踏み出す。
LLMは、プログラム合成に対するエキサイティングな約束を示しているが、シンボリックグラフィックプログラムは理解しているだろうか?
従来のプログラムとは異なり、シンボリックグラフィックスプログラムはグラフィックコンテンツに変換できる。
本稿では,グラフィックコンテンツに関する疑問に答える能力の観点から,LLMの象徴的プログラムに対する理解を特徴付ける。
問題はシンボリックプログラムだけでは答えが難しいため、このタスクは難しい。しかし、人間の実験を通じて検証すると、対応するグラフィックコンテンツから答えるのは簡単だろう。
シンボリックプログラムを理解するために、LLMはレンダリングされたビジュアルコンテンツに直接アクセスすることなく、対応するグラフィックコンテンツがどのように見えるかを想像する能力を持つ必要がある。
シンボルグラフィックスプログラムのセマンティック理解のための大規模なベンチマークを作成することで,LLMの評価にこのタスクを利用する。
このベンチマークはプログラム-グラフィック対応によって構築されるため、人間の努力は最小限に抑えられる。
我々は,プログラムから視覚シーンを判断する能力の予備的評価を行うため,ベンチマーク上の現在のLCMを評価した。
このタスクは既存のLCMと推論が優れていると判断されたモデルとを区別する。
最後に,シンボリック・インストラクション・チューニング(SIT)を導入し,その能力を向上させる。
具体的には、GPT4-oに、シンボリックプログラムによって生成された質問やイメージを問い合わせる。
このようなデータは、LSMを微調整するために使用される。
また,SITデータによりLLMの処理能力の向上が期待できる。
関連論文リスト
- SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。
まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文 参考訳(メタデータ) (2024-10-28T18:10:26Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Can LLM Graph Reasoning Generalize beyond Pattern Memorization? [46.93972334344908]
我々は,大規模言語モデル (LLM) が,合成学習データにおける意味的,数値的,構造的,推論パターンを超えうるか否かを評価し,実世界のグラフベースタスクにおける有用性を向上させる。
トレーニング後のアライメントが現実世界のタスクに最も有望であるのに対して、LLMグラフの推論をパターンを超えて行うことは、依然としてオープンな研究課題である。
論文 参考訳(メタデータ) (2024-06-23T02:59:15Z) - ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。
この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。
ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。
我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z) - Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。
我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。
視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:59:05Z) - Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。
本研究は,LLMが画像の理解も可能かどうかを考察する。
論文 参考訳(メタデータ) (2023-06-09T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。