論文の概要: CONSENT: Context Sensitive Transformer for Bold Words Classification
- arxiv url: http://arxiv.org/abs/2205.07683v1
- Date: Mon, 16 May 2022 13:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 16:56:32.790707
- Title: CONSENT: Context Sensitive Transformer for Bold Words Classification
- Title(参考訳): CONSENT: 単語分類のための文脈感性変換器
- Authors: Ionut-Catalin Sandu and Daniel Voinea and Alin-Ionut Popa
- Abstract要約: コンテキスト依存オブジェクト分類のためのContext SENsitive Transformerフレームワークを提案する。
我々は、エンドツーエンドのトランスフォーマーベースのニューラルネットワークアンサンブルを使用して、文脈依存のバイナリ分類(すなわち、太字対非ボルト)を学ぶ。
筆者らは,手ポーズを描写した2ドルの絵が描かれたシリーズの勝者を決定するために,モデルのトレーニングを行うことにより,岩紙シッセのゲームに対する最先端の競争結果を実証した。
- 参考スコア(独自算出の注目度): 3.9801146118723474
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present CONSENT, a simple yet effective CONtext SENsitive Transformer
framework for context-dependent object classification within a fully-trainable
end-to-end deep learning pipeline. We exemplify the proposed framework on the
task of bold words detection proving state-of-the-art results. Given an image
containing text of unknown font-types (e.g. Arial, Calibri, Helvetica), unknown
language, taken under various degrees of illumination, angle distortion and
scale variation, we extract all the words and learn a context-dependent binary
classification (i.e. bold versus non-bold) using an end-to-end
transformer-based neural network ensemble. To prove the extensibility of our
framework, we demonstrate competitive results against state-of-the-art for the
game of rock-paper-scissors by training the model to determine the winner given
a sequence with $2$ pictures depicting hand poses.
- Abstract(参考訳): これは、完全に訓練可能なエンドツーエンドのディープラーニングパイプライン内でコンテキスト依存オブジェクトを分類するための、シンプルで効果的なコンテキストに敏感なトランスフォーマーフレームワークです。
本稿では,大胆な単語検出の課題について,提案手法を実証する。
未知のフォントタイプ(例えば、arial, calibri, helvetica)のテキストを含む画像が与えられたとき、未知言語は、様々な照明、角度歪み、スケールの変動の度合いで取られ、すべての単語を抽出し、エンドツーエンドのトランスフォーマーベースのニューラルネットワークアンサンブルを使用して文脈依存のバイナリ分類(太字と非太字)を学ぶ。
この枠組みの拡張性を証明するために,手形を描いた2ドルの絵を描いたシーケンスで得られた勝者を決定するようにモデルを訓練することにより,ロックペーパー・シッシャのゲームにおける最先端技術に対する競争結果を示す。
関連論文リスト
- Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Simultaneous Multiple-Prompt Guided Generation Using Differentiable
Optimal Transport [41.265684813975625]
テキストキューから画像を生成することによって操作するテキスト・ツー・イメージ合成アプローチは、一点を論じる。
本稿では,最適輸送(OT)文献に見られるマッチング手法を用いて,多様なプロンプトを忠実に反映できる画像を提案する。
論文 参考訳(メタデータ) (2022-04-18T03:46:06Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Lightweight Generative Adversarial Networks for Text-Guided Image
Manipulation [139.41321867508722]
本稿では,自然言語記述を用いた効率的な画像操作のための軽量な生成対向ネットワークを提案する。
単語レベルでの微粒な学習フィードバックを提供する新しい単語レベル判別器を提案する。
論文 参考訳(メタデータ) (2020-10-23T02:43:02Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z) - Fine-grained Image Classification and Retrieval by Combining Visual and
Locally Pooled Textual Features [8.317191999275536]
特に、テキストの存在は、コンピュータビジョンタスクの多様性に対処するために使用されるべき強力なガイドコンテンツを提供する。
本稿では,テキスト情報と視覚的手がかりを併用した細粒度分類と画像検索の課題に対処し,両者の本質的な関係を解明する。
論文 参考訳(メタデータ) (2020-01-14T12:06:12Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。