論文の概要: FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding
- arxiv url: http://arxiv.org/abs/2505.17330v1
- Date: Thu, 22 May 2025 22:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.72297
- Title: FS-DAG: Few Shot Domain Adapting Graph Networks for Visually Rich Document Understanding
- Title(参考訳): FS-DAG: 視覚的にリッチな文書理解のためにグラフネットワークに適応するショットドメイン
- Authors: Amit Agarwal, Srikant Panda, Kulbhushan Pachauri,
- Abstract要約: Few Shot Domain Adapting Graph (FS-DAG)は、視覚的にリッチな文書理解(VRDU)のためのスケーラブルで効率的なモデルアーキテクチャである。
FS-DAGは、90M未満のパラメータを持つ高性能で、複雑な実世界の情報抽出(IE)用途に適している。
FS-DAGの能力は,情報抽出タスクの広範な実験により実証され,最先端手法と比較して収束速度と性能が著しく向上した。
- 参考スコア(独自算出の注目度): 0.9843385481559191
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose Few Shot Domain Adapting Graph (FS-DAG), a scalable and efficient model architecture for visually rich document understanding (VRDU) in few-shot settings. FS-DAG leverages domain-specific and language/vision specific backbones within a modular framework to adapt to diverse document types with minimal data. The model is robust to practical challenges such as handling OCR errors, misspellings, and domain shifts, which are critical in real-world deployments. FS-DAG is highly performant with less than 90M parameters, making it well-suited for complex real-world applications for Information Extraction (IE) tasks where computational resources are limited. We demonstrate FS-DAG's capability through extensive experiments for information extraction task, showing significant improvements in convergence speed and performance compared to state-of-the-art methods. Additionally, this work highlights the ongoing progress in developing smaller, more efficient models that do not compromise on performance. Code : https://github.com/oracle-samples/fs-dag
- Abstract(参考訳): 本研究では,Few Shot Domain Adapting Graph (FS-DAG)を提案する。
FS-DAGは、最小限のデータで多様なドキュメントタイプに適応するために、モジュールフレームワーク内のドメイン固有および言語/ビジョン固有のバックボーンを活用する。
このモデルは、OCRエラー、ミススペル、ドメインシフトなどの現実的な問題に対して堅牢で、実際のデプロイメントにおいて重要なものだ。
FS-DAGは、90M未満のパラメータを持つ高性能で、計算資源が限られている複雑な情報抽出(IE)タスクに適している。
FS-DAGの能力は,情報抽出タスクの広範な実験により実証され,最先端手法と比較して収束速度と性能が著しく向上した。
さらに、この作業は、パフォーマンスを損なわない、より小さく、より効率的なモデルの開発における継続的な進歩を強調します。
コード:https://github.com/oracle-samples/fs-dag
関連論文リスト
- Topology-Aware CLIP Few-Shot Learning [0.0]
本稿では,Representation Topology DivergenceをTask Residualフレームワークに統合したトポロジ対応チューニング手法を提案する。
RTDとクロスエントロピー損失を組み合わせた視覚・テキスト表現のトポロジ的構造を明示的に整合させることにより,本手法は撮影性能を向上する。
論文 参考訳(メタデータ) (2025-05-03T04:58:29Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - RGL: A Graph-Centric, Modular Framework for Efficient Retrieval-Augmented Generation on Graphs [58.10503898336799]
完全なRAGパイプラインをシームレスに統合するモジュラーフレームワークであるRAG-on-Graphs Library(RGL)を紹介した。
RGLは、さまざまなグラフフォーマットをサポートし、必須コンポーネントの最適化実装を統合することで、重要な課題に対処する。
評価の結果,RGLはプロトタイピングプロセスの高速化だけでなく,グラフベースRAGシステムの性能や適用性の向上も図っている。
論文 参考訳(メタデータ) (2025-03-25T03:21:48Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - Resource-Efficient Affordance Grounding with Complementary Depth and Semantic Prompts [21.435113588059924]
Affordanceは、エージェントが認識し、その環境から利用する機能的特性を指す。
既存のマルチモーダル・アベイランス手法は有用な情報抽出の限界に直面している。
本稿では,BiT-Align画像深度テキストアプライアンスマッピングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T13:20:42Z) - DAViD: Domain Adaptive Visually-Rich Document Understanding with Synthetic Insights [8.139817615390147]
本稿では,DAViD(Domain Adaptive Visually-rich Document Understanding)フレームワークを紹介する。
DAViDは細粒度と粗粒度の文書表現学習を統合し、コストのかかる手動ラベリングの必要性を減らすために合成アノテーションを使用する。
論文 参考訳(メタデータ) (2024-10-02T14:47:55Z) - DiffusionNAG: Predictor-guided Neural Architecture Generation with Diffusion Models [56.584561770857306]
本研究では拡散モデルに基づく新しい条件付きニューラルネットワーク生成(NAG)フレームワークDiffusionNAGを提案する。
具体的には、ニューラルネットワークを有向グラフとみなし、それらを生成するためのグラフ拡散モデルを提案する。
本研究では,2つの予測型NAS(Transferable NAS)とベイズ最適化(BO)に基づくNAS(Bayesian Optimization)の2つのシナリオにおいて,DiffusionNAGの有効性を検証する。
BOベースのアルゴリズムに統合されると、DiffusionNAGは既存のBOベースのNASアプローチ、特にImageNet 1Kデータセット上の大規模なMobileNetV3検索スペースよりも優れている。
論文 参考訳(メタデータ) (2023-05-26T13:58:18Z) - Exploring Few-Shot Adaptation for Activity Recognition on Diverse Domains [46.26074225989355]
ドメイン適応は、さまざまな環境における正確で堅牢なパフォーマンスを保証するために、アクティビティ認識に不可欠である。
本研究では,FewShot Domain Adaptation for Activity Recognition (FSDA-AR) に焦点をあてる。
より多様で困難な領域への適応を考慮した5つの確立されたデータセットを用いた新しいFSDA-ARを提案する。
論文 参考訳(メタデータ) (2023-05-15T08:01:05Z) - GenURL: A General Framework for Unsupervised Representation Learning [58.59752389815001]
教師なし表現学習(URL)は、教師なしの高次元データのコンパクトな埋め込みを学習する。
本稿では,様々なURLタスクにスムーズに適応可能な類似性ベースの統合URLフレームワークGenURLを提案する。
実験により、GenURLは、自己教師付き視覚学習、無教師付き知識蒸留(KD)、グラフ埋め込み(GE)、次元縮小において、一貫した最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-27T16:24:39Z) - Disentangled Feature Representation for Few-shot Image Classification [64.40410801469106]
そこで本研究では,DFRと呼ばれる新しいDistangled Feature Representationフレームワークを提案する。
DFRは、分類枝によってモデル化される識別的特徴を、変動枝のクラス非関連成分から適応的に分離することができる。
一般的に、一般的な深層数ショット学習手法のほとんどが分類ブランチとしてプラグインできるため、DFRは様々な数ショットタスクのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-09-26T09:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。