論文の概要: Predictive Authoring for Brazilian Portuguese Augmentative and
Alternative Communication
- arxiv url: http://arxiv.org/abs/2308.09497v1
- Date: Fri, 18 Aug 2023 12:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:15:55.249984
- Title: Predictive Authoring for Brazilian Portuguese Augmentative and
Alternative Communication
- Title(参考訳): ブラジルのポルトガル語拡張・代替通信の予測オーサリング
- Authors: Jayr Pereira, Rodrigo Nogueira, Cleber Zanchettin, Robson Fidalgo
- Abstract要約: 本稿では,ブラジルの BERT 版 BERTimbau を用いて,AAC システムにおけるピクトグラムの予測を行う。
BERTimbauを微調整するため,ブラジルポルトガル語をトレーニングコーパスとして使用するAACコーパスを構築した。
同義語の使用は難易度を低下させるが、字幕の使用は最も高い精度に繋がる。
- 参考スコア(独自算出の注目度): 9.578874709168561
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Individuals with complex communication needs (CCN) often rely on augmentative
and alternative communication (AAC) systems to have conversations and
communique their wants. Such systems allow message authoring by arranging
pictograms in sequence. However, the difficulty of finding the desired item to
complete a sentence can increase as the user's vocabulary increases. This paper
proposes using BERTimbau, a Brazilian Portuguese version of BERT, for pictogram
prediction in AAC systems. To finetune BERTimbau, we constructed an AAC corpus
for Brazilian Portuguese to use as a training corpus. We tested different
approaches to representing a pictogram for prediction: as a word (using
pictogram captions), as a concept (using a dictionary definition), and as a set
of synonyms (using related terms). We also evaluated the usage of images for
pictogram prediction. The results demonstrate that using embeddings computed
from the pictograms' caption, synonyms, or definitions have a similar
performance. Using synonyms leads to lower perplexity, but using captions leads
to the highest accuracies. This paper provides insight into how to represent a
pictogram for prediction using a BERT-like model and the potential of using
images for pictogram prediction.
- Abstract(参考訳): 複雑なコミュニケーションニーズ(CCN)を持つ個人は、望む会話やコミュニケーションを行うために、AAC(Augmentative and Alternative Communication)システムに依存することが多い。
このようなシステムは、ピクトグラムを配列してメッセージのオーサリングを可能にする。
しかし、文の完成を希望する項目を見つけることの難しさは、ユーザの語彙が増加するにつれて増大する。
本稿では,ブラジルの BERT 版 BERTimbau を用いて,AAC システムにおけるピクトグラムの予測を行う。
BERTimbauを微調整するため,ブラジルポルトガル語をトレーニングコーパスとして使用するAACコーパスを構築した。
予測のためのピクトグラムの表現には、単語として(ピクトグラムのキャプションを使って)、概念として(辞書の定義を使って)、シノニムのセットとして(関連する用語を使って)異なるアプローチを試した。
また,ピクトグラム予測のための画像の利用も評価した。
その結果, ピクトグラムの字幕, 同義語, 定義から計算した埋め込みを用いることで, 同様の性能が得られた。
同義語の使用は難易度を低下させるが、字幕の使用は高い精度につながる。
本稿では,BERTモデルを用いた画像予測の方法と,画像を用いた画像予測の可能性について考察する。
関連論文リスト
- BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues [47.213906345208315]
本稿では,新たな学習可能かつ参照不要な画像キャプション指標BRIDGEを提案する。
提案手法は,既存の基準フリー評価スコアと比較して,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-07-29T18:00:17Z) - Explainable Image Captioning using CNN- CNN architecture and Hierarchical Attention [0.0]
説明可能なAIは、モデルやアルゴリズムの予測が説明可能で正当化可能な方法で、従来の手法にアプローチするアプローチである。
CNNデコーダと階層型アテンションの概念を取り入れた新しいアーキテクチャが,キャプション生成の高速化と精度向上に利用されている。
論文 参考訳(メタデータ) (2024-06-28T16:27:47Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Cheap-fake Detection with LLM using Prompt Engineering [16.029353282421116]
実際の写真と矛盾する画像キャプションとの誤用は、メディアのアウト・オブ・コンテクスト(OOC)誤用の一例である。
本稿では,ICME'23 Grand Challenge on Detecting CheapfakesにおけるOOCメディア検出のための新しい学習可能なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-05T11:01:00Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。