Fugu-MT 論文翻訳(概要): BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

論文の概要: BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing

arxiv url: http://arxiv.org/abs/2504.01786v1
Date: Wed, 02 Apr 2025 14:51:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-03 19:59:19.395463
Title: BlenderGym: Benchmarking Foundational Model Systems for Graphics Editing
Title（参考訳）: BlenderGym: グラフィック編集のための基礎モデルシステムのベンチマーク
Authors: Yunqi Gu, Ian Huang, Jihyeon Je, Guandao Yang, Leonidas Guibas,
Abstract要約: BlenderGymは3Dグラフィック編集のための視覚言語モデル(VLM)システムベンチマークである。クローズドおよびオープンソース VLM システムを評価し,最先端の VLM システムでさえ,Blender ユーザにとって比較的簡単なタスクに悩まされていることを観察した。
参考スコア（独自算出の注目度）: 4.268804603388096
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D graphics editing is crucial in applications like movie production and game design, yet it remains a time-consuming process that demands highly specialized domain expertise. Automating this process is challenging because graphical editing requires performing a variety of tasks, each requiring distinct skill sets. Recently, vision-language models (VLMs) have emerged as a powerful framework for automating the editing process, but their development and evaluation are bottlenecked by the lack of a comprehensive benchmark that requires human-level perception and presents real-world editing complexity. In this work, we present BlenderGym, the first comprehensive VLM system benchmark for 3D graphics editing. BlenderGym evaluates VLM systems through code-based 3D reconstruction tasks. We evaluate closed- and open-source VLM systems and observe that even the state-of-the-art VLM system struggles with tasks relatively easy for human Blender users. Enabled by BlenderGym, we study how inference scaling techniques impact VLM's performance on graphics editing tasks. Notably, our findings reveal that the verifier used to guide the scaling of generation can itself be improved through inference scaling, complementing recent insights on inference scaling of LLM generation in coding and math tasks. We further show that inference compute is not uniformly effective and can be optimized by strategically distributing it between generation and verification.
Abstract（参考訳）: 3Dグラフィック編集は、映画制作やゲームデザインといったアプリケーションでは不可欠だが、高度な専門分野の専門知識を必要とする時間を要するプロセスである。このプロセスの自動化は、グラフィカルな編集には様々なタスクが必要であり、それぞれが異なるスキルセットを必要とするため、難しい。近年,視覚言語モデル(VLM)が編集プロセスを自動化する強力なフレームワークとして登場したが,人間のレベルでの認識を必要とする包括的なベンチマークが欠如しており,実際の編集の複雑さが表れているため,その開発と評価がボトルネックとなっている。本稿では,3次元グラフィクス編集のためのVLMシステムベンチマークであるBlenderGymを紹介する。 BlenderGymは、コードベースの3D再構成タスクを通じてVLMシステムを評価する。クローズドおよびオープンソース VLM システムを評価し,最先端の VLM システムでさえ,Blender ユーザにとって比較的簡単なタスクに悩まされていることを観察した。 BlenderGymによって実現された推論スケーリング技術は,VLMのグラフィックス編集における性能にどのように影響するかを考察する。特に,本研究では,LLM生成の推論スケーリングに関する最近の知見を補完し,推論スケーリングを通じて生成のスケーリングを導くための検証器自体を改善することができることを明らかにした。さらに、推論計算は均一に有効ではなく、生成と検証の間に戦略的に分散することで最適化可能であることを示す。

関連論文リスト

UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying [64.5307229755533]
画像編集機能を備えた統合VLMを実現するために,UniEdit-Iという新しいトレーニングフリーフレームワークを導入する。我々は最新のBLIP3-oに基づいて提案手法を実装し,GEdit-BenchベンチマークでSOTA(State-of-the-art)性能を達成した。
論文参考訳（メタデータ） (2025-08-05T06:42:09Z)
IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。 IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文参考訳（メタデータ） (2025-06-29T17:02:57Z)
FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [47.8417810406568]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文参考訳（メタデータ） (2025-06-20T07:46:40Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。 ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文参考訳（メタデータ） (2025-04-02T17:45:00Z)
What can Off-the-Shelves Large Multi-Modal Models do for Dynamic Scene Graph Generation? [30.685102474291046]
ビデオ用の動的シーングラフ生成(DSGG)はコンピュータビジョンにおいて難しい課題である。予測されたシーングラフを概観し、既存のDSGG法における3つの重要な問題を発見する。単純なデコーダのみの構造を持つLMMは、ステート・オブ・ザ・アート・シーングラフ生成器に変換可能であることを示す。
論文参考訳（メタデータ） (2025-03-20T04:58:53Z)
Leveraging Large Language Models For Scalable Vector Graphics Processing: A Review [0.0]
従来のベクトル化技術は、長い処理時間と過剰な出力の複雑さに悩まされている。大規模言語モデル(LLM)の出現により、ベクトルグラフィックスの生成、編集、解析の新しい可能性が生まれた。
論文参考訳（メタデータ） (2025-03-06T21:23:17Z)
ConvMesh: Reimagining Mesh Quality Through Convex Optimization [55.2480439325792]
本研究では、既存のメッシュを強化するために、規律付き凸プログラミングと呼ばれる凸最適化プログラミングを導入する。元々のメッシュとターゲットのメッシュの両方から分離されたポイントクラウドに注目することにより、この手法は、最小限のデータ要求でメッシュ品質を大幅に改善することを示す。
論文参考訳（メタデータ） (2024-12-11T15:48:25Z)
MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文参考訳（メタデータ） (2024-10-10T07:07:56Z)
LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。 SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文参考訳（メタデータ） (2024-07-08T22:40:15Z)
BlenderAlchemy: Editing 3D Graphics with Vision-Language Models [4.852796482609347]
ビジョンベースの編集生成器と状態評価器が協力して、目標を達成するための正しいアクションのシーケンスを見つける。人間のデザインプロセスにおける視覚的想像力の役割に触発されて、視覚言語モデルの視覚的推論能力を「想像された」参照画像で補う。
論文参考訳（メタデータ） (2024-04-26T19:37:13Z)
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文参考訳（メタデータ） (2024-02-12T18:21:14Z)
3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。 3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文参考訳（メタデータ） (2023-10-19T17:41:48Z)
gradSim: Differentiable simulation for system identification and visuomotor control [66.37288629125996]
本稿では,微分可能マルチフィジカルシミュレーションと微分可能レンダリングを活用し,3次元監督への依存を克服するフレームワークであるgradsimを提案する。当社の統合グラフは、状態ベースの(3D)監督に頼ることなく、挑戦的なバイスモメータ制御タスクで学習を可能にします。
論文参考訳（メタデータ） (2021-04-06T16:32:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。