論文の概要: MENTOR: Multilingual tExt detectioN TOward leaRning by analogy
- arxiv url: http://arxiv.org/abs/2403.07286v1
- Date: Tue, 12 Mar 2024 03:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:04:57.207134
- Title: MENTOR: Multilingual tExt detectioN TOward leaRning by analogy
- Title(参考訳): MENTOR:類似による多言語tExt検出Toward leaRning
- Authors: Hsin-Ju Lin, Tsu-Chun Chung, Ching-Chun Hsiao, Pin-Yu Chen, Wei-Chen
Chiu, and Ching-Chun Huang
- Abstract要約: 本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
- 参考スコア(独自算出の注目度): 59.37382045577384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text detection is frequently used in vision-based mobile robots when they
need to interpret texts in their surroundings to perform a given task. For
instance, delivery robots in multilingual cities need to be capable of doing
multilingual text detection so that the robots can read traffic signs and road
markings. Moreover, the target languages change from region to region, implying
the need of efficiently re-training the models to recognize the novel/new
languages. However, collecting and labeling training data for novel languages
are cumbersome, and the efforts to re-train an existing/trained text detector
are considerable. Even worse, such a routine would repeat whenever a novel
language appears. This motivates us to propose a new problem setting for
tackling the aforementioned challenges in a more efficient way: "We ask for a
generalizable multilingual text detection framework to detect and identify both
seen and unseen language regions inside scene images without the requirement of
collecting supervised training data for unseen languages as well as model
re-training". To this end, we propose "MENTOR", the first work to realize a
learning strategy between zero-shot learning and few-shot learning for
multilingual scene text detection.
- Abstract(参考訳): テキスト検出は、特定のタスクを実行するために周囲のテキストを解釈する必要があるときに、視覚ベースの移動ロボットで頻繁に使用される。
例えば、多言語都市における配送ロボットは、交通標識や道路標識を読めるように、多言語テキスト検出を可能にする必要がある。
さらに、対象言語は地域によって変化し、新しい/新しい言語を認識するためにモデルを再訓練する必要が生じる。
しかし、新しい言語のためのトレーニングデータの収集とラベル付けは困難であり、既存のテキスト検出器を再訓練する努力は相当に多い。
さらに悪いことに、新しい言語が現れるたびに、そのようなルーチンが繰り返される。
これは、前述の課題をより効率的な方法で解決するための、新たな問題設定を提案する動機となっている。我々は、未熟言語の教師付きトレーニングデータ収集とモデルの再トレーニングを必要とせず、シーン画像内の見掛けられた言語領域と見当たらない言語領域の両方を検出し識別するための、汎用可能な多言語テキスト検出フレームワークを要求"する。
そこで本研究では,多言語シーンのテキスト検出のためのゼロショット学習と少数ショット学習の学習戦略を実現する最初の研究である「メンター」を提案する。
関連論文リスト
- Multi-Task Contrastive Learning for 8192-Token Bilingual Text Embeddings [22.71166607645311]
本稿では,最先端のバイリンガルテキスト埋め込みモデルについて紹介する。
これらのモデルは、最大8192トークンで長いテキスト入力を処理することができる。
STSタスクのモデル性能を大幅に改善しました。
我々は、ドイツ語とスペイン語の埋め込みモデルのベンチマークを含むように、Massive Text Embedding Benchmarkを拡張した。
論文 参考訳(メタデータ) (2024-02-26T20:53:12Z) - Automated stance detection in complex topics and small languages: the
challenging case of immigration in polarizing news media [0.0]
本稿では,大規模言語モデルによる自動姿勢検出への適用性について検討する。
形態学的に複雑で、低資源の言語であり、社会文化的に複雑な話題である移民を含んでいる。
このケースでアプローチがうまくいけば、要求の少ないシナリオでも同じように、あるいはより良く実行されることが期待できる。
論文 参考訳(メタデータ) (2023-05-22T13:56:35Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Few-Shot Cross-Lingual Stance Detection with Sentiment-Based
Pre-Training [32.800766653254634]
本研究は,現在までの言語間スタンス検出に関する最も包括的な研究である。
6つの言語ファミリーの12言語で15の多様なデータセットを使用します。
実験では,新しいラベルエンコーダの追加を提案し,パターン探索トレーニングを構築した。
論文 参考訳(メタデータ) (2021-09-13T15:20:06Z) - From Masked Language Modeling to Translation: Non-English Auxiliary
Tasks Improve Zero-shot Spoken Language Understanding [24.149299722716155]
非常に低リソースの方言を含む6言語ファミリーの13言語を対象に,言語間SlotとIntent Detectionの新しいベンチマークであるxSIDを紹介した。
本研究では,英語SLU学習データと原文,構文,翻訳による非英語補助課題を併用した共同学習手法を提案する。
その結果,マスキング言語モデルによる主タスクの学習はスロットに有効であり,機械翻訳は意図分類に最適であることがわかった。
論文 参考訳(メタデータ) (2021-05-15T23:51:11Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。