論文の概要: Large Language Models as Visualization Agents for Immersive Binary Reverse Engineering
- arxiv url: http://arxiv.org/abs/2508.13413v1
- Date: Tue, 19 Aug 2025 00:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.747233
- Title: Large Language Models as Visualization Agents for Immersive Binary Reverse Engineering
- Title(参考訳): 没入型バイナリリバースエンジニアリングのための可視化エージェントとしての大規模言語モデル
- Authors: Dennis Brown, Samuel Mulder,
- Abstract要約: 没入型バーチャルリアリティ(VR)は、バイナリリバースエンジニアリング(RE)における認知的複雑さを軽減できる余裕を提供する
我々はこのプラットフォームを,バイナリ解析ツールをクエリし,没入型3Dビジュアライゼーションを生成するLLMエージェントで拡張する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Immersive virtual reality (VR) offers affordances that may reduce cognitive complexity in binary reverse engineering (RE), enabling embodied and external cognition to augment the RE process through enhancing memory, hypothesis testing, and visual organization. In prior work, we applied a cognitive systems engineering approach to identify an initial set of affordances and implemented a VR environment to support RE through spatial persistence and interactivity. In this work, we extend that platform with an integrated large language model (LLM) agent capable of querying binary analysis tools, answering technical questions, and dynamically generating immersive 3D visualizations in alignment with analyst tasks. We describe the system architecture and our evaluation process and results. Our pilot study shows that while LLMs can generate meaningful 3D call graphs (for small programs) that align with design principles, output quality varies widely. This work raises open questions about the potential for LLMs to function as visualization agents, constructing 3D representations that reflect cognitive design principles without explicit training.
- Abstract(参考訳): 没入型バーチャルリアリティ(VR)は、バイナリリバースエンジニアリング(RE)における認知的複雑さを低減し、メモリ、仮説テスト、視覚的組織を強化することで、REプロセスを強化するための具体的および外部認知を可能にする。
先行研究では,空間的持続性と相互作用性を通じてREを支援するためのVR環境を実装した。
本研究では,このプラットフォームを,バイナリ解析ツールをクエリし,技術的疑問に答え,分析タスクに合わせて没入型3D視覚化を動的に生成できる統合型大言語モデル(LLM)エージェントで拡張する。
システムアーキテクチャと評価プロセスと結果について述べる。
我々のパイロットスタディでは、LCMは設計原則に沿った意味のある3Dコールグラフ(小さなプログラムの場合)を生成することができるが、出力品質は様々である。
この研究は、LLMが可視化エージェントとして機能し、明示的なトレーニングなしに認知設計原則を反映した3D表現を構築する可能性について、オープンな疑問を提起する。
関連論文リスト
- Advances in Feed-Forward 3D Reconstruction and View Synthesis: A Survey [154.50661618628433]
3D再構成とビュー合成は、拡張現実(AR)、仮想現実(VR)、デジタルツインといった没入型技術における基礎的な問題である。
深層学習によるフィードフォワードアプローチの最近の進歩は、高速で一般化可能な3次元再構成とビュー合成を可能にして、この分野に革命をもたらした。
論文 参考訳(メタデータ) (2025-07-19T06:13:25Z) - IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering [7.247417417159471]
視覚言語モデル(VLM)は記述的タスクに優れるが、視覚的な観察からシーンを真に理解しているかどうかは不明だ。
IR3D-Benchは、受動的認識よりも能動的生成による理解を実証するために、VLMに挑戦するベンチマークである。
論文 参考訳(メタデータ) (2025-06-29T17:02:57Z) - Spatial Understanding from Videos: Structured Prompts Meet Simulation Data [79.52833996220059]
本稿では,事前学習された視覚言語モデルにおける3次元空間推論を,アーキテクチャを変更することなく拡張するための統一的なフレームワークを提案する。
このフレームワークは、複雑なシーンと質問を解釈可能な推論ステップに分解する構造化プロンプト戦略であるSpatialMindと、多様な3Dシミュレーションシーンから構築されたスケーラブルな質問応答データセットであるScanForgeQAを組み合わせる。
論文 参考訳(メタデータ) (2025-06-04T07:36:33Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。