論文の概要: DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations
- arxiv url: http://arxiv.org/abs/2211.06648v1
- Date: Sat, 12 Nov 2022 12:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:43:00.348026
- Title: DATa: Domain Adaptation-Aided Deep Table Detection Using Visual-Lexical
Representations
- Title(参考訳): DATa:視覚的表現を用いたドメイン適応型ディープテーブル検出
- Authors: Hyebin Kwon, Joungbin An, Dongwoo Lee, Won-Yong Shin
- Abstract要約: DATaと呼ばれる新しいドメイン適応型ディープテーブル検出手法を提案する。
信頼できるラベルがほとんどない特定のターゲットドメインで十分なパフォーマンスを保証します。
実験の結果,DATaは対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
- 参考スコア(独自算出の注目度): 2.542864854772221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Considerable research attention has been paid to table detection by
developing not only rule-based approaches reliant on hand-crafted heuristics
but also deep learning approaches. Although recent studies successfully perform
table detection with enhanced results, they often experience performance
degradation when they are used for transferred domains whose table layout
features might differ from the source domain in which the underlying model has
been trained. To overcome this problem, we present DATa, a novel Domain
Adaptation-aided deep Table detection method that guarantees satisfactory
performance in a specific target domain where few trusted labels are available.
To this end, we newly design lexical features and an augmented model used for
re-training. More specifically, after pre-training one of state-of-the-art
vision-based models as our backbone network, we re-train our augmented model,
consisting of the vision-based model and the multilayer perceptron (MLP)
architecture. Using new confidence scores acquired based on the trained MLP
architecture as well as an initial prediction of bounding boxes and their
confidence scores, we calculate each confidence score more accurately. To
validate the superiority of DATa, we perform experimental evaluations by
adopting a real-world benchmark dataset in a source domain and another dataset
in our target domain consisting of materials science articles. Experimental
results demonstrate that the proposed DATa method substantially outperforms
competing methods that only utilize visual representations in the target
domain. Such gains are possible owing to the capability of eliminating high
false positives or false negatives according to the setting of a confidence
score threshold.
- Abstract(参考訳): 手作りのヒューリスティックに基づくルールベースのアプローチだけでなく、ディープラーニングアプローチも開発することにより、テーブル検出にかなりの研究が注目されている。
近年の研究は改良された結果でテーブル検出に成功したが、テーブルレイアウトの特徴が基礎となるモデルがトレーニングされたソースドメインと異なる可能性のある転送ドメインで使用される場合、パフォーマンスが低下することが多い。
この問題を解決するために,信頼ラベルが少ない特定のターゲットドメインにおいて,満足度の高い性能を保証する新しいドメイン適応支援ディープテーブル検出手法であるDATaを提案する。
この目的のために、我々は新たに語彙的特徴と再学習に用いる拡張モデルを設計した。
具体的には、最先端のビジョンベースモデルをバックボーンネットワークとして事前トレーニングした後、視覚ベースモデルと多層パーセプトロン(MLP)アーキテクチャからなる拡張モデルをトレーニングする。
トレーニングされたMLPアーキテクチャに基づいて得られた新しい信頼度スコアと、バウンディングボックスとその信頼度スコアの初期予測を用いて、各信頼度スコアをより正確に算出する。
データの優越性を検証するために,実世界のベンチマークデータセットをソースドメインに,別のデータセットをマテリアルサイエンス論文からなるターゲットドメインに導入して実験評価を行う。
実験により,提案手法は対象領域における視覚的表現のみを利用する競合手法よりもかなり優れていた。
このようなゲインは、信頼度スコア閾値の設定に応じて高い偽陽性または偽陰性を除去できるため可能である。
関連論文リスト
- EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - On the Out of Distribution Robustness of Foundation Models in Medical
Image Segmentation [47.95611203419802]
視覚と言語の基礎は、様々な自然画像とテキストデータに基づいて事前訓練されており、有望なアプローチとして現れている。
一般化性能を,同じ分布データセット上で微調整した後,事前学習した各種モデルの未確認領域と比較した。
さらに,凍結モデルに対する新しいベイズ不確実性推定法を開発し,分布外データに基づくモデルの性能評価指標として利用した。
論文 参考訳(メタデータ) (2023-11-18T14:52:10Z) - Open-Set Domain Adaptation with Visual-Language Foundation Models [51.49854335102149]
非教師なしドメイン適応(UDA)は、ソースドメインからラベルのないデータを持つターゲットドメインへの知識の転送に非常に効果的であることが証明されている。
オープンセットドメイン適応(ODA)は、トレーニングフェーズ中にこれらのクラスを識別する潜在的なソリューションとして登場した。
論文 参考訳(メタデータ) (2023-07-30T11:38:46Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。