論文の概要: An Online Reference-Free Evaluation Framework for Flowchart Image-to-Code Generation
- arxiv url: http://arxiv.org/abs/2602.13376v1
- Date: Fri, 13 Feb 2026 17:16:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.951046
- Title: An Online Reference-Free Evaluation Framework for Flowchart Image-to-Code Generation
- Title(参考訳): フローチャート画像・コード生成のためのオンライン参照フリー評価フレームワーク
- Authors: Giang Son Nguyen, Zi Pong Lim, Sarthak Ketanbhai Modi, Yon Shin Teo, Wenya Wang,
- Abstract要約: VLM(Vision-Language Models)は、フローチャートイメージを構造化コードに変換するために、ドキュメント処理パイプラインでますます使われている。
本稿では,フローチャート画像とコード生成の品質を推論時に監視する参照フリー評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.178048822782426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are increasingly used in document processing pipelines to convert flowchart images into structured code (e.g., Mermaid). In production, these systems process arbitrary inputs for which no ground-truth code exists, making output quality difficult to assess. We propose a reference-free evaluation framework that monitors flowchart image-to-code generation quality at inference time, using only the input image and the generated output. The framework introduces two automated metrics: $\text{Recall}{\text{OCR}}$, which estimates content coverage by extracting text from the input image via OCR as a proxy reference, and $\text{Precision}{\text{VE}}$, which detects hallucinated elements through Visual Entailment against the original image. Their harmonic mean, $\text{F1}{\text{OCR-VE}}$, provides a unified quality score. Validation on the FlowVQA dataset shows strong agreement with ground-truth metrics (average Pearson's $r = 0.97$, $0.91$, and $0.94$ for Recall, Precision, and F1, respectively), confirming the framework's reliability as a practical, reference-free alternative for continuous quality monitoring in production settings.
- Abstract(参考訳): VLM(Vision-Language Models)は、フローチャートイメージを構造化コード(例:Mermaid)に変換するために、ドキュメント処理パイプラインでますます使われている。
生産において、これらのシステムは、基幹コードがない任意の入力を処理し、出力品質を評価するのが困難になる。
本稿では,入力画像と生成した出力のみを用いて,フローチャート画像からコードへの生成品質を推定時に監視する参照フリー評価フレームワークを提案する。
このフレームワークは2つの自動メトリクスを導入している。$\text{recall}{\text{OCR}}$は、入力イメージからOCRを介してテキストをプロキシ参照として抽出することでコンテンツカバレッジを推定する。
彼らのハーモニックな意味は、$\text{F1}{\text{OCR-VE}}$は、統一された品質スコアを提供する。
FlowVQAデータセットのバリデーションは、(平均的なPearsonの$r = 0.97$, $0.91$, $0.94$ for Recall, Precision, F1)、運用環境での継続的品質監視の実践的で参照不要な代替手段として、フレームワークの信頼性を確認している。
関連論文リスト
- LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。
大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。
私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文 参考訳(メタデータ) (2026-01-20T18:58:32Z) - Appreciate the View: A Task-Aware Evaluation Framework for Novel View Synthesis [15.922599086027098]
新規ビュー合成(NVS)は、未知の視点から与えられたコンテンツのリアルな画像を生成することを目的としている。
既存の評価指標は、生成したイメージが現実的であり、ソースビューに忠実であるかどうかを評価するのに苦労する。
本稿では、参照ベースのスコア、D_textPRISM$、参照なしスコア、$textMMD_textPRISM$の2つの相補的評価指標を紹介する。
論文 参考訳(メタデータ) (2025-11-16T16:28:08Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? [80.4577892387028]
テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。
我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
論文 参考訳(メタデータ) (2025-05-18T08:39:37Z) - EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation [29.176750442205325]
本研究では,EvalMuse-40Kベンチマークにコントリビュートし,画像テキストアライメントに関連するタスクに対して,微粒な人間のアノテーションを用いた40K画像テキストペアを収集する。
本稿では,T2Iモデルの画像テキストアライメント機能を評価するための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T04:08:25Z) - Linear-time Minimum Bayes Risk Decoding with Reference Aggregation [52.1701152610258]
最小ベイズリスク(MBR、Minimum Bayes Risk)は、機械翻訳の品質向上を図ったテキスト生成技術である。
これは2次複雑性を持つ実用計量のペアワイズ計算を必要とする。
本稿では,集約された参照表現に対して計算したスコアを用いて,ペアワイズメトリックスコアを近似する。
論文 参考訳(メタデータ) (2024-02-06T18:59:30Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and
Grounding [34.078590816368056]
句抽出と接地(PEG)の両面を考慮した視覚的接地の問題について検討する。
PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけるモデルを必要とする。
画像とテキストの異なる特徴を探索する2つのクエリを導入した新しいDQ-DETRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-28T16:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。