論文の概要: Beyond Human Annotation: Recent Advances in Data Generation Methods for Document Intelligence
- arxiv url: http://arxiv.org/abs/2601.12318v1
- Date: Sun, 18 Jan 2026 09:01:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.571961
- Title: Beyond Human Annotation: Recent Advances in Data Generation Methods for Document Intelligence
- Title(参考訳): 人間のアノテーションを超えて: ドキュメントインテリジェンスのためのデータ生成手法の最近の進歩
- Authors: Dehao Ying, Fengchang Yu, Haihua Chen, Changjiang Jiang, Yurong Li, Wei Lu,
- Abstract要約: この調査は、ドキュメントインテリジェンスにおけるデータ生成のための最初の総合的な技術マップを確立する。
データ生成は監視信号生成として再定義される。
データとラベルの有効性」に基づく新しい分類法が導入された
- 参考スコア(独自算出の注目度): 6.0051533428647375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of Document Intelligence (DI) demands large-scale, high-quality training data, yet manual annotation remains a critical bottleneck. While data generation methods are evolving rapidly, existing surveys are constrained by fragmented focuses on single modalities or specific tasks, lacking a unified perspective aligned with real-world workflows. To fill this gap, this survey establishes the first comprehensive technical map for data generation in DI. Data generation is redefined as supervisory signal production, and a novel taxonomy is introduced based on the "availability of data and labels." This framework organizes methodologies into four resource-centric paradigms: Data Augmentation, Data Generation from Scratch, Automated Data Annotation, and Self-Supervised Signal Construction. Furthermore, a multi-level evaluation framework is established to integrate intrinsic quality and extrinsic utility, compiling performance gains across diverse DI benchmarks. Guided by this unified structure, the methodological landscape is dissected to reveal critical challenges such as fidelity gaps and frontiers including co-evolutionary ecosystems. Ultimately, by systematizing this fragmented field, data generation is positioned as the central engine for next-generation DI.
- Abstract(参考訳): ドキュメントインテリジェンス(DI)の進歩は大規模で高品質なトレーニングデータを必要とするが、手作業によるアノテーションは依然として重要なボトルネックである。
データ生成手法は急速に進化しているが、既存の調査は、単一のモダリティや特定のタスクに焦点を絞った断片的な調査によって制約されている。
このギャップを埋めるために、この調査はDIにおけるデータ生成のための最初の総合的な技術マップを確立する。
データ生成は監視信号生産として再定義され、「データとラベルの有効性」に基づいた新しい分類法が導入された。
このフレームワークは、データ拡張、スクラッチからのデータ生成、自動データアノテーション、自己監視信号構築という4つのリソース中心のパラダイムに分類する。
さらに、様々なDIベンチマークのパフォーマンス向上をコンパイルし、固有の品質と外部ユーティリティを統合するために、マルチレベル評価フレームワークが確立されている。
この統合された構造によって導かれた方法論的景観は、忠実さのギャップや、共進化的生態系を含むフロンティアといった重要な課題を明らかにするために切り離されている。
最終的に、この断片化されたフィールドを体系化することにより、データ生成は次世代DIの中央エンジンとして位置づけられる。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective [23.25829868360603]
タブラルデータ(Tabular data)は、バイオインフォマティクス、医療、マーケティングなど、さまざまな領域で広く使われているデータフォーマットの1つである。
本調査では,データ空間を精製するための基本技術として,強化学習(RL)と特徴選択と特徴生成のための生成的アプローチについて検討する。
我々は,既存の課題を要約し,今後の研究の方向性について論じ,この分野の継続的なイノベーションを促進する洞察を提供することを目的とする。
論文 参考訳(メタデータ) (2025-02-12T22:34:50Z) - Towards Data-Centric AI: A Comprehensive Survey of Traditional, Reinforcement, and Generative Approaches for Tabular Data Transformation [37.43210238341124]
この調査では、データ空間の洗練に欠かせない技術として、特徴選択と特徴生成を強調し、データ中心型AIの重要な側面について検討する。
本稿では、最も関連性の高いデータ属性を識別・保持する機能選択手法の体系的なレビューと、複雑なデータパターンのキャプチャーを容易にする新機能を作成する機能生成アプローチについて述べる。
論文 参考訳(メタデータ) (2025-01-17T21:05:09Z) - A Survey on Data Synthesis and Augmentation for Large Language Models [35.59526251210408]
本稿では,大規模言語モデルのライフサイクルを通じてデータ生成手法をレビューし,要約する。
これらの手法が直面する現在の制約について考察し,今後の開発・研究の道筋について考察する。
論文 参考訳(メタデータ) (2024-10-16T16:12:39Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Harnessing Administrative Data Inventories to Create a Reliable
Transnational Reference Database for Crop Type Monitoring [0.0]
E URO C ROPSは,国家間の相互運用を目標として,各国で調査された管理データを収集・調和する作物型分類基準データセットである。
論文 参考訳(メタデータ) (2023-10-10T07:57:00Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。