論文の概要: TechING: Towards Real World Technical Image Understanding via VLMs
- arxiv url: http://arxiv.org/abs/2601.18238v1
- Date: Mon, 26 Jan 2026 07:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.724532
- Title: TechING: Towards Real World Technical Image Understanding via VLMs
- Title(参考訳): Teching: VLMによる実世界の技術的イメージ理解を目指して
- Authors: Tafazzul Nadeem, Bhavik Shangari, Manish Rai, Gagan Raj Gupta, Ashutosh Modi,
- Abstract要約: 本稿では,様々なベースラインモデルを用いた広範囲な実験とトレーニングを行うための,新たなセルフスーパービジョンタスクについて紹介する。
実世界の画像では,8種類の内7種類のベースラインに対して,最小限のコンパイル誤差が達成されている。
- 参考スコア(独自算出の注目度): 11.63381168320578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Professionals working in technical domain typically hand-draw (on whiteboard, paper, etc.) technical diagrams (e.g., flowcharts, block diagrams, etc.) during discussions; however, if they want to edit these later, it needs to be drawn from scratch. Modern day VLMs have made tremendous progress in image understanding but they struggle when it comes to understanding technical diagrams. One way to overcome this problem is to fine-tune on real world hand-drawn images, but it is not practically possible to generate large number of such images. In this paper, we introduce a large synthetically generated corpus (reflective of real world images) for training VLMs and subsequently evaluate VLMs on a smaller corpus of hand-drawn images (with the help of humans). We introduce several new self-supervision tasks for training and perform extensive experiments with various baseline models and fine-tune Llama 3.2 11B-instruct model on synthetic images on these tasks to obtain LLama-VL-TUG, which significantly improves the ROUGE-L performance of Llama 3.2 11B-instruct by 2.14x and achieves the best all-round performance across all baseline models. On real-world images, human evaluation reveals that we achieve minimum compilation errors across all baselines in 7 out of 8 diagram types and improve the average F1 score of Llama 3.2 11B-instruct by 6.97x.
- Abstract(参考訳): 技術的な領域で働くプロフェッショナルは、議論の間、手書きの(ホワイトボード、紙など)技術図(例えば、フローチャート、ブロック図など)を描きます。
現代のVLMは画像理解に大きな進歩を遂げていますが、技術的な図を理解する上では苦労しています。
この問題を解決する方法の1つは、実世界の手描き画像を微調整することであるが、そのような画像を多数生成することは事実上不可能である。
本稿では,VLMをトレーニングするための大規模な合成コーパス(実世界の画像の反射)を導入し,手描き画像の小さなコーパス上でVLMを評価する。
本研究では,Llama 3.211B-インストラクトのROUGE-L性能を2.14倍に向上させ,全ベースラインモデル全体で最高の全ラウンド性能を実現したLLama-VL-TUGを実現するために,様々なベースラインモデルとファインチューンLlama 3.211B-インストラクトモデルを用いて,新たなセルフスーパービジョンタスクを導入する。
実世界の画像では,8種類の図のうち7種類のベースラインで最小のコンパイル誤差を達成し,Llama 3.2 11BのF1スコアを6.97倍改善した。
関連論文リスト
- Flow-Anything: Learning Real-World Optical Flow Estimation from Large-Scale Single-view Images [23.731451842621933]
実世界の任意の単一視点画像から光フロー推定を学習するための大規模データ生成フレームワークを開発した。
大規模な実世界の画像から光フロートレーニングデータを生成する利点を初めて示す。
我々のモデルは、基礎モデルとして機能し、様々なダウンストリームビデオタスクのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-06-09T13:23:44Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - Efficient-3DiM: Learning a Generalizable Single-image Novel-view
Synthesizer in One Day [63.96075838322437]
シングルイメージのノベルビューシンセサイザーを学習するためのフレームワークを提案する。
当社のフレームワークは,トレーニング時間を10日以内から1日未満に短縮することが可能です。
論文 参考訳(メタデータ) (2023-10-04T17:57:07Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task [47.1857510710807]
我々はGPT4Imageと呼ばれる新しい学習フレームワークを提案し、CNNやViTがより良い表現を学ぶのに役立つ大規模な事前学習モデルの知識を抽出する。
本研究では,様々な視覚認知タスクにおける提案アルゴリズムの有効性を検証するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。