論文の概要: Docs2Synth: A Synthetic Data Trained Retriever Framework for Scanned Visually Rich Documents Understanding
- arxiv url: http://arxiv.org/abs/2601.12260v1
- Date: Sun, 18 Jan 2026 04:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.534119
- Title: Docs2Synth: A Synthetic Data Trained Retriever Framework for Scanned Visually Rich Documents Understanding
- Title(参考訳): Docs2Synth: ビジュアルリッチドキュメント理解のための合成データトレーニング型検索フレームワーク
- Authors: Yihao Ding, Qiang Sun, Puzhen Wu, Sirui Li, Siwen Luo, Wei Liu,
- Abstract要約: 我々は、プライベートおよびローリソースドメインの検索誘導推論を可能にする合成スーパービジョンフレームワークであるDocs2 Synthを紹介する。
Docs2 Synthは、生文書コレクションを自動的に処理し、エージェントベースのシステムを介して多様なQAペアを生成し検証し、軽量なビジュアルレトリバーを訓練して、ドメイン関連エビデンスを抽出する。
- 参考スコア(独自算出の注目度): 21.391281461594104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding (VRDU) in regulated domains is particularly challenging, since scanned documents often contain sensitive, evolving, and domain specific knowledge. This leads to two major challenges: the lack of manual annotations for model adaptation and the difficulty for pretrained models to stay up-to-date with domain-specific facts. While Multimodal Large Language Models (MLLMs) show strong zero-shot abilities, they still suffer from hallucination and limited domain grounding. In contrast, discriminative Vision-Language Pre-trained Models (VLPMs) provide reliable grounding but require costly annotations to cover new domains. We introduce Docs2Synth, a synthetic-supervision framework that enables retrieval-guided inference for private and low-resource domains. Docs2Synth automatically processes raw document collections, generates and verifies diverse QA pairs via an agent-based system, and trains a lightweight visual retriever to extract domain-relevant evidence. During inference, the retriever collaborates with an MLLM through an iterative retrieval--generation loop, reducing hallucination and improving response consistency. We further deliver Docs2Synth as an easy-to-use Python package, enabling plug-and-play deployment across diverse real-world scenarios. Experiments on multiple VRDU benchmarks show that Docs2Synth substantially enhances grounding and domain generalization without requiring human annotations.
- Abstract(参考訳): スキャンされた文書には、敏感で進化し、ドメイン固有の知識が含まれていることが多いため、規制されたドメインにおける文書理解(VRDU)は特に困難である。
モデル適応のための手動アノテーションの欠如と、事前訓練されたモデルがドメイン固有の事実を最新に保つのが困難である。
MLLM(Multimodal Large Language Models)は、強いゼロショット能力を示すが、幻覚と限られたドメイン基盤に悩まされている。
対照的に、VLPM(Variminative Vision-Language Pre-trained Models)は信頼できる基盤を提供するが、新しいドメインをカバーするには高価なアノテーションを必要とする。
プライベートおよび低リソースドメインに対する検索誘導推論を可能にする合成スーパービジョンフレームワークであるDocs2Synthを紹介する。
Docs2Synthは、自動的に生文書コレクションを処理し、エージェントベースのシステムを介して多様なQAペアを生成し検証し、軽量なビジュアルレトリバーを訓練して、ドメイン関連エビデンスを抽出する。
推論中、検索者は反復検索生成ループを通じてMLLMと協調し、幻覚を減少させ、応答整合性を向上させる。
さらに我々はDocs2Synthを使いやすいPythonパッケージとして提供し、様々な現実のシナリオにまたがるプラグインとプレイのデプロイを可能にしました。
複数のVRDUベンチマークの実験では、Docs2Synthは人間のアノテーションを必要とせずにグラウンド化とドメインの一般化を大幅に強化している。
関連論文リスト
- Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation [61.47019392413271]
WinnowRAGは、価値あるコンテンツを保持しながら、ノイズの多いドキュメントを体系的にフィルタリングするように設計されている。
WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。
ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
論文 参考訳(メタデータ) (2025-11-01T20:08:13Z) - SynDoc: A Hybrid Discriminative-Generative Framework for Enhancing Synthetic Domain-Adaptive Document Key Information Extraction [29.174133313633817]
ドメイン固有のビジュアルリッチ文書理解(VRDU)は、医学、金融、物質科学といった分野における文書の複雑さと感度が原因で大きな課題を呈している。
既存のLarge (Multimodal) Language Models (LLMs/MLLMs) は有望な結果を達成するが、幻覚、不十分なドメイン適応、広範囲な微調整データセットへの依存といった制限に直面している。
本稿では,これらの課題に対処するための識別モデルと生成モデルを組み合わせた新しいフレームワークであるSynDocを紹介する。
論文 参考訳(メタデータ) (2025-09-27T12:01:52Z) - Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning [12.17399365931]
既存の1パスのMLLMは、クエリの関連性を考慮せずに、ドキュメントイメージ全体を処理します。
そこで我々は,ヒトの視覚的推論をMLLMに組み込むシンプルな効果メカニズムであるDoc-CoBを紹介した。
提案手法では,クエリに最も関連性の高い領域群を自律的に選択し,さらに理解するためにそれらに注意を集中することができる。
論文 参考訳(メタデータ) (2025-05-24T08:53:05Z) - DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral [11.336757553731639]
多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。
多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。
初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
論文 参考訳(メタデータ) (2025-05-06T06:02:42Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - New Dataset and Methods for Fine-Grained Compositional Referring Expression Comprehension via Specialist-MLLM Collaboration [49.180693704510006]
Referring Expression (REC) は、言語理解、画像理解、言語と画像の接点の相互作用を評価するためのクロスモーダルなタスクである。
MLLM(Multimodal Large Language Models)の試験場として機能する。
論文 参考訳(メタデータ) (2025-02-27T13:58:44Z) - RetroLLM: Empowering Large Language Models to Retrieve Fine-grained Evidence within Generation [21.764973680014368]
RetroLLMは、検索と生成を単一の凝集プロセスに統合する統合フレームワークである。
制約付きエビデンス生成の過程での偽プルーニングを軽減するために,階層的FM-Index制約を導入する。
5つのオープンドメインQAデータセットの実験では、ドメイン内タスクとドメイン外タスクの両方にわたって、RetroLLMの優れたパフォーマンスが示されている。
論文 参考訳(メタデータ) (2024-12-16T16:03:25Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。