論文の概要: RegCLR: A Self-Supervised Framework for Tabular Representation Learning
in the Wild
- arxiv url: http://arxiv.org/abs/2211.01165v1
- Date: Wed, 2 Nov 2022 14:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 12:34:37.711041
- Title: RegCLR: A Self-Supervised Framework for Tabular Representation Learning
in the Wild
- Title(参考訳): regclr: 野生の表表現学習のための自己教師付きフレームワーク
- Authors: Weiyao Wang, Byung-Hak Kim, Varun Ganapathi
- Abstract要約: コントラストと正規化メソッドを組み合わせた,新たな自己教師型フレームワークであるRegCLRを紹介します。
RegCLRは標準のVision Transformerアーキテクチャと互換性がある。
いくつかの実世界のテーブル認識シナリオは、この新しいフレームワークから学んだ表現から大きな恩恵を受けることが示されている。
- 参考スコア(独自算出の注目度): 1.5187073409911216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in self-supervised learning (SSL) using large models to learn
visual representations from natural images are rapidly closing the gap between
the results produced by fully supervised learning and those produced by SSL on
downstream vision tasks. Inspired by this advancement and primarily motivated
by the emergence of tabular and structured document image applications, we
investigate which self-supervised pretraining objectives, architectures, and
fine-tuning strategies are most effective. To address these questions, we
introduce RegCLR, a new self-supervised framework that combines contrastive and
regularized methods and is compatible with the standard Vision Transformer
architecture. Then, RegCLR is instantiated by integrating masked autoencoders
as a representative example of a contrastive method and enhanced Barlow Twins
as a representative example of a regularized method with configurable input
image augmentations in both branches. Several real-world table recognition
scenarios (e.g., extracting tables from document images), ranging from standard
Word and Latex documents to even more challenging electronic health records
(EHR) computer screen images, have been shown to benefit greatly from the
representations learned from this new framework, with detection
average-precision (AP) improving relatively by 4.8% for Table, 11.8% for
Column, and 11.1% for GUI objects over a previous fully supervised baseline on
real-world EHR screen images.
- Abstract(参考訳): 自然画像から視覚表現を学習するための大規模モデルを用いた自己教師学習(SSL)の最近の進歩は、完全に教師付き学習による結果と下流視覚タスクにおけるSSLによる結果とのギャップを急速に埋めている。
この進歩に触発され、主に表型および構造化文書画像アプリケーションの出現に動機づけられ、どの自己教師付き事前学習目標、アーキテクチャ、および微調整戦略が最も効果的かを調査した。
これらの問題に対処するために、コントラストと規則化されたメソッドを組み合わせて、標準のVision Transformerアーキテクチャと互換性のある、新しいセルフ教師付きフレームワークであるRegCLRを紹介します。
そこで、RegCLRは、マスク付きオートエンコーダをコントラッシブメソッドの代表例として統合し、バーローツインを正規化メソッドの代表例として拡張し、両ブランチで設定可能な入力画像拡張を行う。
Several real-world table recognition scenarios (e.g., extracting tables from document images), ranging from standard Word and Latex documents to even more challenging electronic health records (EHR) computer screen images, have been shown to benefit greatly from the representations learned from this new framework, with detection average-precision (AP) improving relatively by 4.8% for Table, 11.8% for Column, and 11.1% for GUI objects over a previous fully supervised baseline on real-world EHR screen images.
関連論文リスト
- From Prototypes to General Distributions: An Efficient Curriculum for Masked Image Modeling [11.634154932876719]
Masked Image Modelingは視覚表現学習のための強力な自己教師型学習パラダイムとして登場した。
本稿では,原典例からデータセットのより複雑なバリエーションまで,学習プロセスの進行を構造化する,プロトタイプ駆動型カリキュラム学習フレームワークを提案する。
本研究は, 自己指導型視覚学習において, トレーニング事例の順序を慎重に制御することが重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-11-16T03:21:06Z) - Boosting Federated Domain Generalization: Understanding the Role of Advanced Pre-Trained Architectures [27.386915138058416]
本稿では,ViT,ConvNeXt,Swin Transformersといった先進的な事前学習型アーキテクチャの有効性について検討した。
我々は、ImageNet-1K、ImageNet-21K、JFT-300M、ImageNet-22Kといった広範囲な事前学習データセットを用いて、これらのアーキテクチャの様々なバリエーションを評価する。
パラメータが少ないにもかかわらず、より大規模なResNetモデルよりも優れたモデルが存在することを観察する。
論文 参考訳(メタデータ) (2024-09-20T14:09:05Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Improve Supervised Representation Learning with Masked Image Modeling [30.30649867772395]
マスク付き画像モデリングを既存の教師付きトレーニングパラダイムに簡単に統合できる,シンプルで効果的なセットアップを提案する。
アーキテクチャの変更は最小限であり、この設定が学習した表現の質を向上させることができるという仮定のオーバーヘッドはない。
論文 参考訳(メタデータ) (2023-12-01T22:03:25Z) - Patch-Wise Self-Supervised Visual Representation Learning: A Fine-Grained Approach [4.9204263448542465]
本研究は、パッチレベルの識別を自己教師付き視覚表現学習に組み込むことにより、革新的できめ細かな次元を導入する。
それぞれのパッチは個別に拡張され、同じビュー内の他のパッチとは独立している。
我々は、拡張ビュー全体にわたって対応するパッチを見つけるための、単純で効果的なパッチマッチングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T09:35:30Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - VL-LTR: Learning Class-wise Visual-Linguistic Representation for
Long-Tailed Visual Recognition [61.75391989107558]
本稿では,VL-LTRと呼ばれる視覚言語的長尾認識フレームワークを提案する。
本手法は,画像から視覚表現とそれに対応する言語表現を,雑音のあるクラスレベルのテキスト記述から学習することができる。
特に,ImageNet-LTでは77.2%の精度を達成し,従来のベストメソッドよりも17ポイント以上優れていた。
論文 参考訳(メタデータ) (2021-11-26T16:24:03Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - A Simple Framework for Contrastive Learning of Visual Representations [116.37752766922407]
本稿では,視覚表現のコントラスト学習のためのシンプルなフレームワークであるSimCLRについて述べる。
我々は,データ拡張の構成が効果的な予測タスクを定義する上で重要な役割を担っていることを示す。
我々は、ImageNet上での自己教師付き半教師付き学習において、従来の手法よりもかなり優れています。
論文 参考訳(メタデータ) (2020-02-13T18:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。