Fugu-MT 論文翻訳(概要): Can Large Language Models Understand Symbolic Graphics Programs?

論文の概要: Can Large Language Models Understand Symbolic Graphics Programs?

arxiv url: http://arxiv.org/abs/2408.08313v2
Date: Mon, 7 Oct 2024 08:44:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 07:29:14.184034
Title: Can Large Language Models Understand Symbolic Graphics Programs?
Title（参考訳）: 大言語モデルはシンボリック・グラフィクス・プログラムを理解することができるか?
Authors: Zeju Qiu, Weiyang Liu, Haiwen Feng, Zhen Liu, Tim Z. Xiao, Katherine M. Collins, Joshua B. Tenenbaum, Adrian Weller, Michael J. Black, Bernhard Schölkopf,
Abstract要約: シンボリックグラフィックスプログラムはコンピュータグラフィックスで人気がある。シンボルグラフィックプログラムの意味的視覚的理解のためのベンチマークを作成する。 LLMの推理性能は概して優れていた。
参考スコア（独自算出の注目度）: 136.5639211254501
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Against the backdrop of enthusiasm for large language models (LLMs), there is an urgent need to scientifically assess their capabilities and shortcomings. This is nontrivial in part because it is difficult to find tasks which the models have not encountered during training. Utilizing symbolic graphics programs, we propose a domain well-suited to test multiple spatial-semantic reasoning skills of LLMs. Popular in computer graphics, these programs procedurally generate visual data. While LLMs exhibit impressive skills in general program synthesis and analysis, symbolic graphics programs offer a new layer of evaluation: they allow us to test an LLM's ability to answer different-grained semantic-level questions of the images or 3D geometries without a vision encoder. To semantically understand the symbolic programs, LLMs would need to possess the ability to "imagine" and reason how the corresponding graphics content would look with only the symbolic description. We use this task to evaluate LLMs by creating a large benchmark for the semantic visual understanding of symbolic graphics programs, built procedurally with minimal human effort. Particular emphasis is placed on transformations of images that leave the image level semantics invariant while introducing significant changes to the underlying program. We evaluate commercial and open-source LLMs on our benchmark to assess their ability to reason about visual output of programs, finding that LLMs considered stronger at reasoning generally perform better. Lastly, we introduce a novel method to improve this ability -- Symbolic Instruction Tuning (SIT), in which the LLM is finetuned with pre-collected instruction data on symbolic graphics programs. Interestingly, we find that SIT not only improves LLM's understanding on symbolic programs, but it also improves general reasoning ability on various other benchmarks.
Abstract（参考訳）: 大規模言語モデル(LLM)に対する熱意の背景には、その能力と欠点を科学的に評価する必要がある。これは、トレーニング中にモデルが遭遇していないタスクを見つけるのが難しいという理由もある。シンボリックグラフィックスプログラムを用いて,LLMの複数の空間意味推論スキルをテストするのに適した領域を提案する。コンピュータグラフィックスで人気のあるこれらのプログラムは、手続き的に視覚データを生成する。 LLMは、一般的なプログラム合成と解析の優れたスキルを示すが、シンボルグラフィックプログラムは、視覚エンコーダを使わずに、画像や3次元幾何学の異なる粒度のセマンティックレベルの質問に答えるLLMの能力をテストできるという、新しい評価層を提供する。記号プログラムを意味的に理解するためには、LLMは「想像」能力を持ち、対応するグラフィックコンテンツが記号記述のみでどのように見えるかを推論する必要がある。我々は、このタスクを用いて、人間の最小限の努力で手続き的に構築されたシンボリックグラフィックスプログラムの視覚的意味理解のための大規模なベンチマークを作成することで、LCMを評価する。特に、基礎となるプログラムに大幅な変更を加えながら、画像レベルのセマンティクスを不変にしておくイメージの変換に重点を置いている。我々は,プログラムの視覚的アウトプットを推論する能力を評価するため,商業用およびオープンソース用LCMをベンチマークで評価した。最後に,SIT(Symbolic Instruction Tuning)と呼ばれる,SIT(Symbolic Instruction Tuning)という,SIT(Symbolic Instruction Tuning)機能を改善する新しい手法を提案する。興味深いことに、SITはLLMのシンボリックプログラムに対する理解を改善するだけでなく、他の様々なベンチマークにおける一般的な推論能力も向上させる。

関連論文リスト

Can LLMs Formally Reason as Abstract Interpreters for Program Analysis? [2.520295252080748]
LLMはコード生成と理解に優れた能力を持っているが、プログラム解析におけるそのポテンシャルは未解明のままである。 LLMが抽象解釈と呼ばれるプログラム分析フレームワークを用いてプログラムを推論できるかどうかを系統的に検討する。ソフトウェア検証コンペティション(SV-COMP)2019データセットから,22の挑戦的なベンチマークプログラムに対して,最先端のLCMを用いてアプローチを検証する。本研究の結果から,LLMは論理的誤りの影響を受けやすいが,実験モデルでは抽象的解釈に基づく推論が可能であることが示唆された。
論文参考訳（メタデータ） (2025-03-16T23:05:52Z)
Open Eyes, Then Reason: Fine-grained Visual Mathematical Understanding in MLLMs [62.875934732547435]
現在の大言語モデル(MLLM)は、細かな視覚的理解を必要とする数学的問題解決のタスクでは性能が劣ることが多い。本稿では,最先端MLLMの視覚的接地能力を評価し,視覚的接地精度と問題解決性能との間に有意な負の相関関係を示す。本稿では,幾何学的地上視覚エンコーダと,階層型視覚特徴マップの寄与度を動的に調整する機能ルータを備えた新しいアプローチであるSVE-Mathを提案する。
論文参考訳（メタデータ） (2025-01-11T04:08:44Z)
SocialGPT: Prompting LLMs for Social Relation Reasoning via Greedy Segment Optimization [70.11167263638562]
社会的関係推論は、友人、配偶者、同僚などの関係カテゴリを画像から識別することを目的としている。まず、VFM(Vision Foundation Models)の知覚能力と、モジュラーフレームワーク内でのLLM(Large Language Models)の推論能力を組み合わせた、シンプルだが巧妙な名前のフレームワークを提示する。
論文参考訳（メタデータ） (2024-10-28T18:10:26Z)
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文参考訳（メタデータ） (2024-10-08T16:13:24Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Can LLM Graph Reasoning Generalize beyond Pattern Memorization? [46.93972334344908]
我々は,大規模言語モデル (LLM) が,合成学習データにおける意味的,数値的,構造的,推論パターンを超えうるか否かを評価し,実世界のグラフベースタスクにおける有用性を向上させる。トレーニング後のアライメントが現実世界のタスクに最も有望であるのに対して、LLMグラフの推論をパターンを超えて行うことは、依然としてオープンな研究課題である。
論文参考訳（メタデータ） (2024-06-23T02:59:15Z)
ClawMachine: Fetching Visual Tokens as An Entity for Referring and Grounding [67.63933036920012]
プロキシエンコーディングやジオメトリエンコーディングを含む既存のメソッドには、オブジェクトの位置をエンコードするための追加構文が含まれている。この研究はClawMachineを紹介し、視覚トークンを直接使用してエンティティに通知する新しい方法論を提供する。 ClawMachineはビジュアル参照とグラウンドを自動回帰形式に統合し、デコーダのみのアーキテクチャで学習する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文参考訳（メタデータ） (2024-04-06T13:25:00Z)
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文参考訳（メタデータ） (2024-03-21T18:00:00Z)
Frozen Transformers in Language Models Are Effective Visual Encoder Layers [26.759544759745648]
大きな言語モデル(LLM)は、言語がないときに純粋に視覚的なタスクに対して驚くほど強力なエンコーダである。我々の研究は、コンピュータビジョンタスクにLLMを活用することの限界を推し進めている。視覚符号化における事前学習LLMの有効性を説明するために,情報フィルタリング仮説を提案する。
論文参考訳（メタデータ） (2023-10-19T17:59:05Z)
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding [46.042197741423365]
大規模言語モデル(LLM)は、自然言語理解において大きな進歩を遂げた。本研究は,LLMが画像の理解も可能かどうかを考察する。
論文参考訳（メタデータ） (2023-06-09T17:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。