論文の概要: Architecture-Agnostic Curriculum Learning for Document Understanding: Empirical Evidence from Text-Only and Multimodal
- arxiv url: http://arxiv.org/abs/2602.21225v1
- Date: Mon, 02 Feb 2026 10:09:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.660947
- Title: Architecture-Agnostic Curriculum Learning for Document Understanding: Empirical Evidence from Text-Only and Multimodal
- Title(参考訳): 文書理解のためのアーキテクチャ非依存のカリキュラム学習:テキストオンリー・マルチモーダルからの実証的証拠
- Authors: Mohammed Hamdan, Vincenzo Dentamaro, Giuseppe Pirlo, Mohamed Cheriet,
- Abstract要約: 文書理解モデルにおいて,プログレッシブなデータスケジューリングが一貫した効率向上をもたらすかどうかを検討する。
このスケジュールは,6.67から10.0までの有効エポックなデータ削減と合わせて,ウォールクロックのトレーニング時間を約33%短縮することを確認した。
- 参考スコア(独自算出の注目度): 13.329839705160927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether progressive data scheduling -- a curriculum learning strategy that incrementally increases training data exposure (33\%$\rightarrow$67\%$\rightarrow$100\%) -- yields consistent efficiency gains across architecturally distinct document understanding models. By evaluating BERT (text-only, 110M parameters) and LayoutLMv3 (multimodal, 126M parameters) on the FUNSD and CORD benchmarks, we establish that this schedule reduces wall-clock training time by approximately 33\%, commensurate with the reduction from 6.67 to 10.0 effective epoch-equivalents of data. To isolate curriculum effects from compute reduction, we introduce matched-compute baselines (Standard-7) that control for total gradient updates. On the FUNSD dataset, the curriculum significantly outperforms the matched-compute baseline for BERT ($Δ$F1 = +0.023, $p=0.022$, $d_z=3.83$), constituting evidence for a genuine scheduling benefit in capacity-constrained models. In contrast, no analogous benefit is observed for LayoutLMv3 ($p=0.621$), whose multimodal representations provide sufficient inductive bias. On the CORD dataset, all conditions converge to equivalent F1 scores ($\geq$0.947) irrespective of scheduling, indicating a performance ceiling. Schedule ablations comparing progressive, two-phase, reverse, and random pacing confirm that the efficiency gain derives from reduced data volume rather than ordering. Taken together, these findings demonstrate that progressive scheduling is a reliable compute-reduction strategy across model families, with curriculum-specific benefits contingent on the interaction between model capacity and task complexity.
- Abstract(参考訳): 漸進的なデータスケジューリング -- トレーニングデータ露出を漸進的に増加させるカリキュラム学習戦略(33\%$\rightarrow$67\%$\rightarrow$100\%) -- が、アーキテクチャ的に異なる文書理解モデル間で一貫した効率向上をもたらすかどうかを検討する。
BERT (text-only, 110M parameters) と LayoutLMv3 (multimodal, 126M parameters) をFUNSD と CORD のベンチマークで評価することにより, このスケジュールは, 6.67 から 10.0 の有効エポック等価値(epoch-quivalents of data) の削減と合わせて, 壁面時間トレーニング時間を約 33 % 短縮することを確認した。
計算量削減からカリキュラム効果を分離するために,全勾配更新を制御する整合型ベースライン(Standard-7)を導入する。
FUNSDデータセットでは、このカリキュラムはBERT(Δ$F1 = +0.023, $p=0.022$, $d_z=3.83$)のマッチング計算ベースラインを大幅に上回る。
対照的に、LayoutLMv3 (p=0.621$) に対する類似の利点は見られず、多モード表現は十分な帰納バイアスを与える。
CORDデータセットでは、全ての条件はスケジューリングに関係なく同等のF1スコア(\geq$0.947)に収束し、性能天井を示す。
進行性、二相性、逆性、ランダムなペーシングを比較したスケジュールの短縮は、効率の利得が順序付けよりも少ないデータボリュームから導かれることを証明している。
これらの結果から,プログレッシブスケジューリングはモデルファミリ間の信頼性の高い計算還元戦略であり,モデルキャパシティとタスク複雑性の相互作用によるカリキュラム固有の利点が示された。
関連論文リスト
- Estimating Time Series Foundation Model Transferability via In-Context Learning [74.65355820906355]
時系列基礎モデル(TSFM)は、大規模な事前訓練を通じて強力なゼロショット予測を提供する。
微調整は、公開データに制限のあるドメインのパフォーマンス向上に依然として不可欠である。
モデル選択をコンテキスト内学習問題として再キャストする転送可能性推定フレームワークであるTimeTicを紹介する。
論文 参考訳(メタデータ) (2025-09-28T07:07:13Z) - FedTeddi: Temporal Drift and Divergence Aware Scheduling for Timely Federated Edge Learning [12.104759384825705]
フェデレートエッジラーニング(FEEL)は、生データを公開せずに、無線ネットワークを介して分散クライアント間で協調的なモデルトレーニングを可能にする。
重要な課題は、このような進化するデータに対して、タイムリーながら効率的な方法でモデルを適応する方法である。
FEELの高速収束を容易にする時間差分対応スケジューリングアルゴリズムであるFedTeddiを提案する。
論文 参考訳(メタデータ) (2025-09-09T02:33:48Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - Is Architectural Complexity Overrated? Competitive and Interpretable Knowledge Graph Completion with RelatE [6.959701672059059]
RelatEは、エンティティとリレーションの二重表現を効率的に統合する、解釈可能でモジュラーな方法である。
標準ベンチマークにおいて、競争力や優れたパフォーマンスを達成する。
摂動実験では、MRRはTransEと比較して最大61%、RotatEと比較して最大19%減少し、ロバスト性が改善された。
論文 参考訳(メタデータ) (2025-05-25T04:36:52Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [63.484378941471114]
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの101.3%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Drift-Resilient TabPFN: In-Context Learning Temporal Distribution Shifts on Tabular Data [39.40116554523575]
In-Context Learning with a Prior-Data Fitted Network に基づく新しいアプローチである Drift-Resilient TabPFN を提案する。
先行した合成データセットのベイズ推定を近似することを学ぶ。
精度は0.688から0.744に向上し、OC AUCは0.786から0.832に向上し、キャリブレーションも強化された。
論文 参考訳(メタデータ) (2024-11-15T23:49:23Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - DELIFT: Data Efficient Language model Instruction Fine Tuning [13.538140114667772]
本稿では,3段階の微調整におけるデータ選択を体系的に最適化する新しいアルゴリズムであるDELIFTを紹介する。
さまざまなタスクやモデルスケールにわたる実験により、DELIFTはパフォーマンスを損なうことなく、微調整データサイズを最大70%削減できることが示された。
論文 参考訳(メタデータ) (2024-11-07T04:38:29Z) - Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping [53.454408491386886]
自己アライメントのブートストラップは、シングルラウンドアプローチをはるかに上回る。
モデルが継続的に強化した複数ショット機能を活用してゼロまたはワンショットのパフォーマンスを向上するステップ・オン・フィート・チューニング(SOFT)を提案する。
簡単な学習法に基づいて、自己アライメントの性能をさらに向上させるSOFT+を提案する。
論文 参考訳(メタデータ) (2024-02-12T12:30:42Z) - Exploring Learning Complexity for Efficient Downstream Dataset Pruning [8.990878450631596]
既存のデータセットプルーニングメソッドでは、データセット全体のトレーニングが必要になる。
本稿では、DLC(Distorting-based Learning Complexity)という、単純で、新規で、トレーニング不要な難易度スコアを提案する。
本手法は,より高速に学習できるサンプルを少ないパラメータで学習できるという観察結果に動機付けられている。
論文 参考訳(メタデータ) (2024-02-08T02:29:33Z) - 90% F1 Score in Relational Triple Extraction: Is it Real ? [5.188158867781318]
テキストからリレーショナルトリプルを抽出することは、知識ベースを構築する上で重要な課題である。
接合体および関係抽出モデルの最近の進歩は、顕著なF1スコアを示している。
本稿では,より現実的な条件下での最先端のジョイントエンティティと関係抽出モデルについてベンチマーク研究を行う。
論文 参考訳(メタデータ) (2023-02-20T10:30:16Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。