論文の概要: LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2511.08903v1
- Date: Thu, 13 Nov 2025 01:16:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.288855
- Title: LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis
- Title(参考訳): LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: 半教師あり学習の進歩にもかかわらず、文書レイアウトの理解はデータ集約的なままである。
本稿では、視覚的予測を構造的事前に融合させることにより、半教師付き検出を強化するフレームワークを提案する。
提案手法はモデルスケール間で一貫した利得を示す。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document layout understanding remains data-intensive despite advances in semi-supervised learning. We present a framework that enhances semi-supervised detection by fusing visual predictions with structural priors from text-pretrained LLMs via principled probabilistic weighting. Given unlabeled documents, an OCR-LLM pipeline infers hierarchical regions which are combined with teacher detector outputs through inverse-variance fusion to generate refined pseudo-labels.Our method demonstrates consistent gains across model scales. With a lightweight SwiftFormer backbone (26M params), we achieve 88.2$\pm$0.3 AP using only 5\% labels on PubLayNet. When applied to document-pretrained LayoutLMv3 (133M params), our fusion framework reaches 89.7$\pm$0.4 AP, surpassing both LayoutLMv3 with standard semi-supervised learning (89.1$\pm$0.4 AP, p=0.02) and matching UDOP~\cite{udop} (89.8 AP) which requires 100M+ pages of multimodal pretraining. This demonstrates that LLM structural priors are complementary to both lightweight and pretrained architectures. Key findings include: (1) learned instance-adaptive gating improves over fixed weights by +0.9 AP with data-dependent PAC bounds correctly predicting convergence; (2) open-source LLMs enable privacy-preserving deployment with minimal loss (Llama-3-70B: 87.1 AP lightweight, 89.4 AP with LayoutLMv3); (3) LLMs provide targeted semantic disambiguation (18.7\% of cases, +3.8 AP gain) beyond simple text heuristics.Total system cost includes \$12 for GPT-4o-mini API or 17 GPU-hours for local Llama-3-70B per 50K pages, amortized across training runs.
- Abstract(参考訳): 半教師あり学習の進歩にもかかわらず、文書レイアウトの理解はデータ集約的なままである。
本稿では,基本的確率重み付けによるテキスト事前学習による視覚的予測と構造的事前予測を融合させることにより,半教師付き検出を強化するフレームワークを提案する。
OCR-LLMパイプラインは、ラベルのない文書が与えられた場合、逆分散融合により教師検出器出力と結合された階層領域を推定し、洗練された擬似ラベルを生成する。
軽量のSwiftFormerバックボーン(26Mparams)で、PubLayNet上の5\%ラベルのみを使用して88.2$\pm$0.3 APを達成した。
文書事前学習されたLayoutLMv3 (133M params) に適用すると、私たちの融合フレームワークは89.7$\pm$0.4 APに達し、標準半教師付き学習(89.1$\pm$0.4 AP, p=0.02)と、100M以上のマルチモーダル事前学習を必要とするUDOP~\cite{udop} (89.8 AP) の両方を上回ります。
このことは、LLMの構造的前提が軽量アーキテクチャと事前訓練アーキテクチャの両方に相補的であることを示している。
1)データ依存のPAC境界が正しく収束している+0.9 APによるインスタンス適応型ゲーティングの改善 (2) オープンソースのLLMは、最小損失でプライバシ保護デプロイメントを可能にする(Llama-3-70B: 87.1 AP lightweight, 89.4 AP with LayoutLMv3); (3) LLMは、単純なテキストヒューリスティックスを超えて、ターゲットセマンティックな曖昧さを提供する(18.7\%、+3.8 AP gain)。
関連論文リスト
- Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Open-Source LLMs Collaboration Beats Closed-Source LLMs: A Scalable Multi-Agent System [51.04535721779685]
本稿では,オープンソース集団の可能性と強みを実証することを目的とする。
高性能なマルチエージェント協調システム(MACS)フレームワークであるSMACSを提案する。
8つの主要なベンチマーク実験により、SMACSの有効性が検証された。
論文 参考訳(メタデータ) (2025-07-14T16:17:11Z) - Evaluating the Use of LLMs for Documentation to Code Traceability [3.076436880934678]
大規模言語モデルは、様々なソフトウェアドキュメンテーションとソースコードの間のトレースリンクを確立することができる。
私たちは2つのオープンソースプロジェクト(Unity CatalogとCrawl4AI)から2つの新しいデータセットを作成します。
その結果、最高の性能のLLMは2つのデータセットで79.4%と80.4%のF1スコアを達成した。
論文 参考訳(メタデータ) (2025-06-19T16:18:53Z) - Weighted-Reward Preference Optimization for Implicit Model Fusion [35.57286356489511]
提案手法は,ソースLLMとターゲットLLM間の優先最適化を有効に活用する暗黙融合方式を提案する。
WRPOは語彙アライメントやマトリックス融合の必要性を排除し、様々なLSMに対応するために効率的にスケールすることができる。
MT-Bench、AlpacaEval-2、Arena-Hardベンチマークの実験は、WRPOが既存の知識融合法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-12-04T10:15:12Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。