論文の概要: Measuring Visual Understanding in Telecom domain: Performance Metrics for Image-to-UML conversion using VLMs
- arxiv url: http://arxiv.org/abs/2509.11667v1
- Date: Mon, 15 Sep 2025 08:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.190661
- Title: Measuring Visual Understanding in Telecom domain: Performance Metrics for Image-to-UML conversion using VLMs
- Title(参考訳): テレコム領域における視覚的理解の測定:VLMを用いた画像-UML変換のパフォーマンス指標
- Authors: HG Ranjani, Rutuja Prabhudesai,
- Abstract要約: Vision-Language Large Models (VLM) は、シーケンスダイアグラムをマシン可読な PlantUML (puml) フォーマットに容易に変換できる。
既存の作業では、様々なコンポーネントのpumlスクリプトを比較していません。
このような変換の有効性を測定するために,性能指標を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Telecom domain 3GPP documents are replete with images containing sequence diagrams. Advances in Vision-Language Large Models (VLMs) have eased conversion of such images to machine-readable PlantUML (puml) formats. However, there is a gap in evaluation of such conversions - existing works do not compare puml scripts for various components. In this work, we propose performance metrics to measure the effectiveness of such conversions. A dataset of sequence diagrams from 3GPP documents is chosen to be representative of domain-specific actual scenarios. We compare puml outputs from two VLMs - Claude Sonnet and GPT-4V - against manually created ground truth representations. We use version control tools to capture differences and introduce standard performance metrics to measure accuracies along various components: participant identification, message flow accuracy, sequence ordering, and grouping construct preservation. We demonstrate effectiveness of proposed metrics in quantifying conversion errors across various components of puml scripts. The results show that nodes, edges and messages are accurately captured. However, we observe that VLMs do not necessarily perform well on complex structures such as notes, box, groups. Our experiments and performance metrics indicates a need for better representation of these components in training data for fine-tuned VLMs.
- Abstract(参考訳): テレコムドメイン3GPP文書は、シーケンス図を含む画像で複製される。
Vision-Language Large Models (VLM) の進歩により、そのようなイメージをマシン可読な PlantUML (puml) フォーマットへの変換が容易になった。
しかし、このような変換の評価にはギャップがあり、既存の作業では様々なコンポーネントの puml スクリプトを比較していない。
本研究では,このような変換の有効性を測定するために,性能指標を提案する。
3GPP文書からのシーケンス図のデータセットは、ドメイン固有の実際のシナリオを表現するために選択される。
我々は、2つのVLM(Claude Sonnet と GPT-4V)のパウル出力を、手動で作成した基底真理表現と比較する。
バージョン管理ツールを使用して違いをキャプチャし、標準的なパフォーマンス指標を導入して、識別識別、メッセージフローの正確性、シーケンス順序付け、グループ化構成保存といった、さまざまなコンポーネントの精度を測定する。
pumlスクリプトの様々なコンポーネント間での変換誤差の定量化における提案手法の有効性を示す。
その結果、ノード、エッジ、メッセージが正確にキャプチャされることがわかった。
しかし、VLMは必ずしもノート、ボックス、グループのような複雑な構造でうまく機能しない。
我々の実験と性能指標は、微調整VLMのトレーニングデータにおいて、これらのコンポーネントのより良い表現の必要性を示している。
関連論文リスト
- Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs [43.94713826224876]
VLM(Vision-Language Model)は、視覚的な入力に関する質問に答える能力を示すが、テキスト上で類似のタスクを実行する際の精度は高い。
異なるモードのテキスト回路を同定し,比較することにより,この精度ギャップについて検討する。
これを解決するために、後層の視覚データトークンの表現を以前のレイヤに戻します。
論文 参考訳(メタデータ) (2025-06-10T17:59:21Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding [36.376220619032225]
REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。
1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。
REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
論文 参考訳(メタデータ) (2025-03-10T14:59:14Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - Image2Struct: Benchmarking Structure Extraction for Vision-Language Models [57.531922659664296]
Image2Structは、画像から構造を抽出する際のビジョンピクセルモデル(VLM)を評価するためのベンチマークである。
Image2Structでは、VLMが入力画像から基盤構造を生成するように促される。
そして、構造を描画して出力画像を生成し、入力画像と比較して類似度スコアを生成する。
論文 参考訳(メタデータ) (2024-10-29T18:44:59Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。