論文の概要: HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2405.09125v1
- Date: Wed, 15 May 2024 06:41:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:16:04.828712
- Title: HAAP: Vision-context Hierarchical Attention Autoregressive with Adaptive Permutation for Scene Text Recognition
- Title(参考訳): HAAP:シーンテキスト認識のための適応置換を用いた視覚コンテキスト階層型アテンション自動回帰
- Authors: Honghui Chen, Yuhang Qiu, Jiabao Wang, Pingping Chen, Nam Ling,
- Abstract要約: 内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。
本稿では,アダプティブ・パーミューテーション(Adaptive Permutation, HAAP)を用いた階層的注意自己回帰モデルを提案する。
- 参考スコア(独自算出の注目度): 17.412985505938508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Internal Language Model (LM)-based methods use permutation language modeling (PLM) to solve the error correction caused by conditional independence in external LM-based methods. However, random permutations of human interference cause fit oscillations in the model training, and Iterative Refinement (IR) operation to improve multimodal information decoupling also introduces additional overhead. To address these issues, this paper proposes the Hierarchical Attention autoregressive Model with Adaptive Permutation (HAAP) to enhance the location-context-image interaction capability, improving autoregressive generalization with internal LM. First, we propose Implicit Permutation Neurons (IPN) to generate adaptive attention masks to dynamically exploit token dependencies. The adaptive masks increase the diversity of training data and prevent model dependency on a specific order. It reduces the training overhead of PLM while avoiding training fit oscillations. Second, we develop Cross-modal Hierarchical Attention mechanism (CHA) to couple context and image features. This processing establishes rich positional semantic dependencies between context and image while avoiding IR. Extensive experimental results show the proposed HAAP achieves state-of-the-art (SOTA) performance in terms of accuracy, complexity, and latency on several datasets.
- Abstract(参考訳): 内部言語モデル(LM)に基づく手法は、外部のLMに基づく手法で条件独立性に起因する誤り訂正を解決するために置換言語モデリング(PLM)を用いる。
しかし、人間の干渉のランダムな置換はモデルトレーニングに適合する振動を引き起こし、多重モーダル情報デカップリングを改善するための反復リファインメント(IR)操作も追加のオーバーヘッドをもたらす。
これらの問題に対処するために,適応的置換を用いた階層的注意自己回帰モデル(HAAP)を提案し,位置・コンテキスト・イメージ間相互作用の能力を高め,内部LMによる自己回帰一般化を改善する。
まず,Implicit Permutation Neurons (IPN) を用いて,トークン依存を動的に活用する適応型アテンションマスクを提案する。
適応マスクはトレーニングデータの多様性を高め、特定の順序によるモデル依存を防止する。
PLMのトレーニングオーバーヘッドを低減し、トレーニング適合振動を回避する。
第2に、コンテキストと画像の特徴を結合するクロスモーダル階層型アテンション機構(CHA)を開発する。
この処理は、IRを避けながらコンテキストと画像間のリッチな位置意味的依存関係を確立する。
大規模な実験結果から,提案したHAAPは,複数のデータセット上での精度,複雑性,レイテンシの観点から,最先端(SOTA)のパフォーマンスを実現している。
関連論文リスト
- AMOSL: Adaptive Modality-wise Structure Learning in Multi-view Graph Neural Networks For Enhanced Unified Representation [22.84527318463151]
マルチビューグラフニューラルネットワーク(MVGNN)は、オブジェクト表現の学習に様々なモダリティを活用するのに長けている。
既存の手法では、実世界の相違を見渡すモダリティを越えて同じ局所トポロジー構造を仮定する。
これらの問題に対処するため,適応型モーダリティ構造学習(AMoSL)を提案する。
論文 参考訳(メタデータ) (2024-06-04T14:24:30Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Learning Optimal Features via Partial Invariance [18.552839725370383]
不変リスク最小化(IRM)は、複数の環境から堅牢なモデルを学ぶことを目的とした一般的なフレームワークである。
IRMが予測器を過度に抑制できることを示し、これを補うために、$textitpartial invariance$を介して緩和を提案する。
線形設定と、言語と画像データの両方のタスクにおけるディープニューラルネットワークの両方で実施されたいくつかの実験により、結論の検証が可能になった。
論文 参考訳(メタデータ) (2023-01-28T02:48:14Z) - Adaptive Discrete Communication Bottlenecks with Dynamic Vector
Quantization [76.68866368409216]
入力に条件付けされた離散化の厳密度を動的に選択する学習を提案する。
コミュニケーションボトルネックの動的に変化する厳密さは、視覚的推論や強化学習タスクにおけるモデル性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-02-02T23:54:26Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z) - Adaptive Batching for Gaussian Process Surrogates with Application in
Noisy Level Set Estimation [0.0]
実験プロセスのメタモデルに適応的な複製設計を開発する。
我々は、マルチレベル適応(MLB)、段階的不確実性低減(ABSUR)、段階的アロケーション(ADSA)、段階的アロケーション(DDSA)の4つの新しいスキームを使用している。
論文 参考訳(メタデータ) (2020-03-19T05:30:16Z) - Adaptive Correlated Monte Carlo for Contextual Categorical Sequence
Generation [77.7420231319632]
我々は,モンテカルロ (MC) ロールアウトの集合を分散制御のために評価する政策勾配推定器に,カテゴリー列の文脈的生成を適用する。
また,二分木ソフトマックスモデルに相関したMCロールアウトを用いることで,大語彙シナリオにおける高生成コストを低減できることを示す。
論文 参考訳(メタデータ) (2019-12-31T03:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。