論文の概要: Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization
- arxiv url: http://arxiv.org/abs/2604.11042v1
- Date: Mon, 13 Apr 2026 06:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.360163
- Title: Improving Layout Representation Learning Across Inconsistently Annotated Datasets via Agentic Harmonization
- Title(参考訳): エージェントハーモニゼーションによる無矛盾な注釈付きデータセット間のレイアウト表現学習の改善
- Authors: Renyu Li, Vladimir Kirilenko, Yao You, Crag Wolfe,
- Abstract要約: 学習前にカテゴリ意味と境界ボックスの粒度を照合する視覚言語モデルを提案する。
文書のレイアウト検出を困難なケーススタディとして評価する。
- 参考スコア(独自算出の注目度): 1.1549572298362782
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning object detection (OD) models on combined datasets assumes annotation compatibility, yet datasets often encode conflicting spatial definitions for semantically equivalent categories. We propose an agentic label harmonization workflow that uses a vision-language model to reconcile both category semantics and bounding box granularity across heterogeneous sources before training. We evaluate on document layout detection as a challenging case study, where annotation standards vary widely across corpora. Without harmonization, naïve mixed-dataset fine-tuning degrades a pretrained RT-DETRv2 detector: on SCORE-Bench, which measures how accurately the full document conversion pipeline reproduces ground-truth structure, table TEDS drops from 0.800 to 0.750. Applied to two corpora whose 16 and 10 category taxonomies share only 8 direct correspondences, harmonization yields consistent gains across content fidelity, table structure, and spatial consistency: detection F-score improves from 0.860 to 0.883, table TEDS improves to 0.814, and mean bounding box overlap drops from 0.043 to 0.016. Representation analysis further shows that harmonized training produces more compact and separable post-decoder embeddings, confirming that annotation inconsistency distorts the learned feature space and that resolving it before training restores representation structure.
- Abstract(参考訳): 組み合わせデータセット上の微調整オブジェクト検出(OD)モデルはアノテーションの互換性を前提としているが、データセットはしばしば意味論的に等価なカテゴリに対する矛盾する空間定義を符号化する。
本稿では,視覚言語モデルを用いたエージェントラベル調和ワークフローを提案する。
我々は文書レイアウト検出を,コーパス全体にわたってアノテーション標準が広く異なる,困難なケーススタディとして評価した。
SCORE-Benchでは、完全な文書変換パイプラインが基底構造をどれだけ正確に再現するかを測定するため、テーブルTEDSは0.800から0.750に低下する。
Fスコアの検出は0.860から0.883に改善され、テーブルTEDSは0.814に改善され、平均境界ボックスオーバーラップは0.043から0.016に減少する。
表現解析により、調和したトレーニングはよりコンパクトで分離可能なポストデコーダの埋め込みを生成し、アノテーションの不整合が学習した特徴空間を歪ませ、学習前にそれを解消することが表現構造を復元することを確認する。
関連論文リスト
- MinerU2.5-Pro: Pushing the Limits of Data-Centric Document Parsing at Scale [92.09717763663873]
我々は、データエンジニアリングとトレーニング戦略設計を通じて、純粋に最先端の技術を進化させるMinerU2.5-Proを提案する。
コアとなるのは、カバレッジ、情報性、アノテーションの正確性を中心に設計されたData Engineだ。
我々は,MinerU2.5-Pro が OmniDocBench v1.6 上で 95.69 を達成することを示す。
論文 参考訳(メタデータ) (2026-04-06T15:44:18Z) - CA-HFP: Curvature-Aware Heterogeneous Federated Pruning with Model Reconstruction [6.817747681821888]
不均一エッジデバイス上でのフェデレーション学習は、アグリゲーション互換性と安定した収束を維持しながらパーソナライズされた圧縮を必要とする。
本稿では,各クライアントが構成されたデバイス固有のプルーニングを,曲率インフォームドの重要度スコアでガイドできる実用的フレームワークCA-HFPを提案する。
論文 参考訳(メタデータ) (2026-03-13T02:45:00Z) - Bridging the Semantic Gap for Categorical Data Clustering via Large Language Models [64.58262227709842]
ARISE(Attention-weighted Representation with Integrated Semantic Embeddings)が紹介される。
正確なクラスタリングのためにカテゴリデータのメトリック空間を補完するセマンティックアウェア表現を構築する。
8つのベンチマークデータセットの実験では、7つの代表的なデータセットよりも一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-03T11:37:46Z) - SCORE: A Semantic Evaluation Framework for Generative Document Parsing [2.5101597298392098]
マルチモーダル生成文書解析システムは意味論的に正しいが構造的に異なる出力を生成する。
従来のメトリクス-CER, WER, IoU, TEDS-misclassized such diversity as error, penalizing valid interpretations and obscuring system behavior。
SCORE, (i) 調整した編集距離を頑健な内容の忠実度と統合する解釈非依存のフレームワーク, (ii) トークンレベルの診断で幻覚と排便を区別する, (iii) 空間的寛容とセマンティックアライメントによるテーブル評価, (iv) 階層対応の整合性チェックを紹介する。
論文 参考訳(メタデータ) (2025-09-16T16:06:19Z) - SEG:Seeds-Enhanced Iterative Refinement Graph Neural Network for Entity Alignment [13.487673375206276]
本稿では,マルチソースデータと反復的シード拡張を融合したソフトラベル伝搬フレームワークを提案する。
正試料間距離と負試料の差分処理を行う双方向重み付き共同損失関数を実装した。
提案手法は,既存の半教師付きアプローチよりも優れており,複数のデータセットにおいて優れた結果が得られた。
論文 参考訳(メタデータ) (2024-10-28T04:50:46Z) - Multitask Fine-Tuning and Generative Adversarial Learning for Improved Auxiliary Classification [0.0]
3つの下流タスクをマルチタスクで微調整するための新しいBERTアーキテクチャを実装した。
我々のモデルであるMultitask BERTは、レイヤ共有とトリプルトアーキテクチャ、カスタム文ペアトークン化、損失ペアリング、勾配手術を取り入れています。
また、BERTに生成逆学習を適用し、潜在空間から写像して偽の埋め込みを生成する条件付きジェネレータモデルを構築した。
論文 参考訳(メタデータ) (2024-08-11T20:05:54Z) - Telling Left from Right: Identifying Geometry-Aware Semantic Correspondence [80.6840060272386]
本稿では,意味的対応のための幾何学的認識の重要性を明らかにする。
この情報を活用することで,意味的対応性能が著しく向上することを示す。
提案手法は,SPair-71kデータセット上で,65.4(ゼロショット)と85.6(教師)のPCK@0.10スコアを達成する。
論文 参考訳(メタデータ) (2023-11-28T18:45:13Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Pre-trained Language Models as Re-Annotators [3.193067591317475]
事前学習言語モデルから意味センシティブなアノテーション表現を取得する方法について検討する。
アノテーション修正のためのクロスバリデーションに基づく事前学習言語モデルを微調整する。
関係抽出における再アノテーションについて検討し、手動で改訂したデータセットRe-DocREDを作成する。
論文 参考訳(メタデータ) (2022-05-11T09:28:23Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。