論文の概要: FocalOrder: Focal Preference Optimization for Reading Order Detection
- arxiv url: http://arxiv.org/abs/2601.07483v1
- Date: Mon, 12 Jan 2026 12:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.383693
- Title: FocalOrder: Focal Preference Optimization for Reading Order Detection
- Title(参考訳): FocalOrder: 読み出し順序検出のためのFocal Preference Optimization
- Authors: Fuyuan Liu, Dianyu Yu, He Ren, Nayu Liu, Xiaomian Kang, Delai Qiu, Fa Zhang, Genpeng Zhen, Shengping Liu, Jiaen Liang, Wei Huang, Yining Wang, Junnan Zhu,
- Abstract要約: 我々はtextbfFocal Preference Optimization (FPO) によって駆動されるフレームワーク textbfFocalOrder を提案する。
FocalOrderは適応的難易度発見と指数的な移動平均機構を用いて動的にピンポイントのハード・ツー・ラーン遷移を行う。
FocalOrder は OmniDocBench v1.0 と Comp-HRDoc で新しい最先端の結果を確立する。
- 参考スコア(独自算出の注目度): 23.497081928689525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reading order detection is the foundation of document understanding. Most existing methods rely on uniform supervision, implicitly assuming a constant difficulty distribution across layout regions. In this work, we challenge this assumption by revealing a critical flaw: \textbf{Positional Disparity}, a phenomenon where models demonstrate mastery over the deterministic start and end regions but suffer a performance collapse in the complex intermediate sections. This degradation arises because standard training allows the massive volume of easy patterns to drown out the learning signals from difficult layouts. To address this, we propose \textbf{FocalOrder}, a framework driven by \textbf{Focal Preference Optimization (FPO)}. Specifically, FocalOrder employs adaptive difficulty discovery with exponential moving average mechanism to dynamically pinpoint hard-to-learn transitions, while introducing a difficulty-calibrated pairwise ranking objective to enforce global logical consistency. Extensive experiments demonstrate that FocalOrder establishes new state-of-the-art results on OmniDocBench v1.0 and Comp-HRDoc. Our compact model not only outperforms competitive specialized baselines but also significantly surpasses large-scale general VLMs. These results demonstrate that aligning the optimization with intrinsic structural ambiguity of documents is critical for mastering complex document structures.
- Abstract(参考訳): 読み順検出は文書理解の基礎である。
既存の手法の多くは一様監視に依存しており、レイアウト領域間で一定の困難分布を仮定している。
本稿では, 決定論的始点と終点領域に対してモデルが熟達を示すが, 複雑な中間領域では性能が低下する現象である。
この劣化は、標準的なトレーニングによって、大量の簡単なパターンが、難しいレイアウトから学習信号を取り除くことができるため発生します。
そこで,本稿では,FPO(textbf{Focal Preference Optimization)によって駆動されるフレームワークである‘textbf{FocalOrder}’を提案する。
具体的には、FocalOrderは適応的な難易度発見と指数的な移動平均メカニズムを用いて、動的にハード・ツー・ラーン遷移をピンポイントし、グローバルな論理的一貫性を強制する難易度校正されたペアのランク付けの目的を導入する。
大規模な実験では、FocalOrderがOmniDocBench v1.0とComp-HRDocに新しい最先端の結果を確立することが示されている。
我々のコンパクトモデルは、競合する特殊ベースラインを上回るだけでなく、大規模汎用VLMをはるかに上回る。
これらの結果から,文書の構造的あいまいさに最適化を合わせることが,複雑な文書構造を習得するのに重要であることが示唆された。
関連論文リスト
- Hi-ZFO: Hierarchical Zeroth- and First-Order LLM Fine-Tuning via Importance-Guided Tensor Selection [4.808936079900314]
FO勾配をZO推定と相乗化するためにtextbfHi-ZFO (textbfHierarchical textbfZeroth- and textbfFirst-textbfOrder optimization) を提案する。
また,Hi-ZFOはトレーニング時間を大幅に短縮しつつ,優れた性能を実現していることを示す。
論文 参考訳(メタデータ) (2026-01-09T03:20:54Z) - ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction [5.594845708011402]
本稿では,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
FUNSDおよびCORDベンチマークの実験により、ROAPはバックボーンの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-01-09T02:02:37Z) - CogDoc: Towards Unified thinking in Documents [53.41571589733423]
本稿では,人間の認知過程を模倣する統一された粗大な思考枠組みを提案する: 情報ローカライゼーションのための低解像度の「Fast Reading」フェーズ,そして深い推論のための高解像度の「Focused Thinking」フェーズを提案する。
我々は、統合思考フレームワークの訓練後戦略を厳格に調査し、直接強化学習アプローチが監督微調整(SFT)でRLを上回ることを実証した。
具体的には、直接RLは、SFTで観察される「政治紛争」を避けている。
論文 参考訳(メタデータ) (2025-12-14T12:14:17Z) - Hierarchical Evaluation of Software Design Capabilities of Large Language Models of Code [7.897548449569687]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリング領域でますます採用されているが、コア設計概念に対する彼らの理解の堅牢性は、まだ不明である。
さまざまなレベルのガイダンスの下で、設計の不十分なソフトウェアフラグメントを生成します。
結合に関する推論は脆く、ノイズの多いオープンエンドのシナリオでパフォーマンスが崩壊する。
Reasoning-Trace分析はこれらの障害モードを確認し、結合のためのテキスト認識的ショートカットと結合のためのより徹底的な(まだ失敗している)分析を明らかにする。
論文 参考訳(メタデータ) (2025-11-25T23:50:00Z) - Adapformer: Adaptive Channel Management for Multivariate Time Series Forecasting [49.40321003932633]
Adapformerは、効果的なチャネル管理を通じてCIとCD方法論のメリットをマージする、トランスフォーマーベースの高度なフレームワークである。
Adapformerは既存のモデルよりも優れた性能を実現し、予測精度と計算効率の両方を向上させる。
論文 参考訳(メタデータ) (2025-11-18T16:24:05Z) - Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。
本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-11T03:29:18Z) - Beyond Fully Supervised Pixel Annotations: Scribble-Driven Weakly-Supervised Framework for Image Manipulation Localization [11.10178274806454]
アノテーションの効率と検出性能を向上させる弱監督方式を提案する。
我々は、スクリブルラベルでメインストリームのMLデータセットを再注釈し、最初のスクリブルベースのMLデータセットを提案する。
モデルが一貫した予測を生成することを奨励するために,構造的整合性を損なう自己教師型トレーニングを採用する。
論文 参考訳(メタデータ) (2025-07-17T11:45:27Z) - Understanding Generalization of Federated Learning: the Trade-off between Model Stability and Optimization [34.520966684699665]
Federated Learning(FL)は、複数のデバイスで機械学習モデルをトレーニングする分散学習アプローチである。
本稿では,アルゴリズムの一般化性能向上のための革新的動的解析フレームワークである textitLibra を提案する。
より大きい局所的なステップや運動量によって勾配ノルムの収束が促進され、モデル安定性が悪化することを示す。
論文 参考訳(メタデータ) (2024-11-25T11:43:22Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - Federated Conformal Predictors for Distributed Uncertainty
Quantification [83.50609351513886]
コンフォーマル予測は、機械学習において厳密な不確実性定量化を提供するための一般的なパラダイムとして現れつつある。
本稿では,共形予測を連邦学習環境に拡張する。
本稿では、FL設定に適した部分交換可能性の弱い概念を提案し、それをフェデレート・コンフォーマル予測フレームワークの開発に利用する。
論文 参考訳(メタデータ) (2023-05-27T19:57:27Z) - Hard-normal Example-aware Template Mutual Matching for Industrial Anomaly Detection [78.734927709231]
異常検出器は、クエリー画像の未知の欠陥を検出し、ローカライズするために工業製造で広く使われている。
これらの検出器は異常のないサンプルで訓練され、ほとんどの通常のサンプルと区別された異常を成功させた。
しかし、ハードノーマルな例は、ほとんどの通常のサンプルから遠く離れており、しばしば既存の方法によって異常と誤認される。
論文 参考訳(メタデータ) (2023-03-28T17:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。