論文の概要: A Graph-based Approach for Multi-Modal Question Answering from Flowcharts in Telecom Documents
- arxiv url: http://arxiv.org/abs/2507.22938v1
- Date: Fri, 25 Jul 2025 07:36:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.315121
- Title: A Graph-based Approach for Multi-Modal Question Answering from Flowcharts in Telecom Documents
- Title(参考訳): テレコム文書におけるフローチャートからのマルチモーダル質問応答に対するグラフベースアプローチ
- Authors: Sumit Soman, H. G. Ranjani, Sujoy Roychowdhury, Venkata Dharma Surya Narayana Sastry, Akshat Jain, Pranav Gangrade, Ayaaz Khan,
- Abstract要約: 技術的文書からの質問回答は、フローチャートやフロー図のような数字に答えが存在する質問を含むことが多い。
我々は,VLM(Visual Large Language Models)から得られたフローチャートのグラフ表現を活用し,それをテキストベースRAGシステムに組み込んで,通信領域におけるQAの画像検索を可能にすることを示す。
- 参考スコア(独自算出の注目度): 0.619840955350879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question-Answering (QA) from technical documents often involves questions whose answers are present in figures, such as flowcharts or flow diagrams. Text-based Retrieval Augmented Generation (RAG) systems may fail to answer such questions. We leverage graph representations of flowcharts obtained from Visual large Language Models (VLMs) and incorporate them in a text-based RAG system to show that this approach can enable image retrieval for QA in the telecom domain. We present the end-to-end approach from processing technical documents, classifying image types, building graph representations, and incorporating them with the text embedding pipeline for efficient retrieval. We benchmark the same on a QA dataset created based on proprietary telecom product information documents. Results show that the graph representations obtained using a fine-tuned VLM model have lower edit distance with respect to the ground truth, which illustrate the robustness of these representations for flowchart images. Further, the approach for QA using these representations gives good retrieval performance using text-based embedding models, including a telecom-domain adapted one. Our approach also alleviates the need for a VLM in inference, which is an important cost benefit for deployed QA systems.
- Abstract(参考訳): 技術文書からの質問回答(QA)は、フローチャートやフローダイアグラムのような数字に答えが存在する質問を含むことが多い。
テキストベースのRetrieval Augmented Generation (RAG)システムはそのような質問に答えることができない。
我々は,VLM(Visual Large Language Models)から得られたフローチャートのグラフ表現を活用し,それをテキストベースRAGシステムに組み込んで,通信領域におけるQAの画像検索を可能にすることを示す。
本稿では,技術文書の処理,画像タイプ分類,グラフ表現の構築,テキスト埋め込みパイプラインへの組み込みによる効率的な検索手法を提案する。
プロプライエタリなテレコム製品情報ドキュメントに基づいて作成したQAデータセットで、同じことをベンチマークします。
その結果、微調整VLMモデルを用いて得られたグラフ表現は、地上の真実に対する編集距離が低く、フローチャート画像に対するこれらの表現の堅牢性を示している。
さらに、これらの表現を用いたQAのアプローチは、テレコムドメイン適応モデルを含むテキストベースの埋め込みモデルを用いて、良好な検索性能を提供する。
当社のアプローチは,デプロイされたQAシステムにとって重要なコストメリットである,推論におけるVLMの必要性を軽減します。
関連論文リスト
- Describe Anything Model for Visual Question Answering on Text-rich Images [7.618388911738171]
DAMの領域認識機能を利用するフレームワークであるDAM-QAを,テキストリッチな視覚質問応答問題に適用する。
我々のアプローチは、DocVQAで注目すべき7以上のポイントゲインで、ベースラインDAMを一貫して上回ります。
その結果、効率的な使用法と統合戦略を組み合わせれば、テキストリッチで広範なVQAタスクのためのDAMライクなモデルの可能性が浮き彫りになる。
論文 参考訳(メタデータ) (2025-07-16T17:28:19Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Optimizing open-domain question answering with graph-based retrieval augmented generation [5.2850605665217865]
我々は,広範囲のクエリータイプにまたがって,グラフベースの検索拡張生成システム (RAG) をベンチマークした。
従来のRAGメソッドは、ニュアンス付きマルチドキュメントタスクの処理に不足することが多い。
本稿では,グラフベースの合成とベクトルベースの検索技術を組み合わせた,費用対効果の高い新しい代替手段TREXを紹介する。
論文 参考訳(メタデータ) (2025-03-04T18:47:17Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Overcoming Vision Language Model Challenges in Diagram Understanding: A Proof-of-Concept with XML-Driven Large Language Models Solutions [0.0]
ダイアグラムは、ビジネスドキュメント内の複雑な関係やプロセスを視覚的に伝達する上で重要な役割を担います。
近年の視覚言語モデル(VLM)の様々な画像理解タスクの進歩にもかかわらず、図中の構造を正確に識別し抽出することは大きな課題である。
本研究では,VLMの視覚認識能力への依存を回避し,テキスト駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-05T23:40:26Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - Knowledge Graph Prompting for Multi-Document Question Answering [46.29217406937293]
我々は,多文書質問応答(MD-QA)を促す上で,適切なコンテキストを定式化するための知識グラフプロンプティング(KGP)手法を提案する。
グラフ構築のために、パスや文書構造(例えば、ページ/テーブル)を象徴するノードを持つ複数のドキュメントに知識グラフ(KG)を作成する。
論文 参考訳(メタデータ) (2023-08-22T18:41:31Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z) - Analysis on Image Set Visual Question Answering [0.3359875577705538]
マルチイメージ環境での視覚質問応答の課題に対処する。
従来のVQAタスクは、単一のイメージからターゲットの回答が生成される単一イメージ設定に重点を置いている。
本報告では,タスクのパフォーマンス向上を目的とした4つのアプローチについて検討する。
論文 参考訳(メタデータ) (2021-03-31T20:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。