論文の概要: Alleviating the Burden of Labeling: Sentence Generation by Attention
Branch Encoder-Decoder Network
- arxiv url: http://arxiv.org/abs/2007.04557v1
- Date: Thu, 9 Jul 2020 05:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 05:12:38.473402
- Title: Alleviating the Burden of Labeling: Sentence Generation by Attention
Branch Encoder-Decoder Network
- Title(参考訳): ラベル付けの負担を軽減する:注意分岐エンコーダ-デコーダネットワークによる文生成
- Authors: Tadashi Ogura, Aly Magassouba, Komei Sugiura, Tsubasa Hirakawa,
Takayoshi Yamashita, Hironobu Fujiyoshi, and Hisashi Kawai
- Abstract要約: 本稿では,視覚入力から文を生成するためのアテンションブランチエンコーダ-デコーダネットワーク(ABEN)を提案する。
他のアプローチとは異なり、ABENはサブワードレベルのアテンションを使用し、サブワード埋め込みに基づいた文を生成するマルチモーダルアテンションブランチを持つ。
- 参考スコア(独自算出の注目度): 20.172682010748723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domestic service robots (DSRs) are a promising solution to the shortage of
home care workers. However, one of the main limitations of DSRs is their
inability to interact naturally through language. Recently, data-driven
approaches have been shown to be effective for tackling this limitation;
however, they often require large-scale datasets, which is costly. Based on
this background, we aim to perform automatic sentence generation of fetching
instructions: for example, "Bring me a green tea bottle on the table." This is
particularly challenging because appropriate expressions depend on the target
object, as well as its surroundings. In this paper, we propose the attention
branch encoder--decoder network (ABEN), to generate sentences from visual
inputs. Unlike other approaches, the ABEN has multimodal attention branches
that use subword-level attention and generate sentences based on subword
embeddings. In experiments, we compared the ABEN with a baseline method using
four standard metrics in image captioning. Results show that the ABEN
outperformed the baseline in terms of these metrics.
- Abstract(参考訳): 家庭内サービスロボット(DSR)は、在宅勤務者の不足に対する有望な解決策である。
しかし、DSRの主な制限の1つは、言語を通して自然に相互作用できないことである。
近年、この制限に対処するためにデータ駆動アプローチが有効であることが示されているが、コストのかかる大規模なデータセットを必要とすることが多い。
この背景から、例えば「テーブルの上に緑茶瓶をくれ」など、フェッチング命令の自動文生成を目標としています。
適切な表現は対象のオブジェクトやその周辺に依存するため、これは特に困難である。
本稿では,視覚入力から文を生成するためのアテンションブランチエンコーダ-デコーダネットワーク(ABEN)を提案する。
他のアプローチとは異なり、ABENはサブワードレベルのアテンションを使用し、サブワード埋め込みに基づいた文を生成するマルチモーダルアテンションブランチを持つ。
実験では,画像キャプションにおける4つの標準指標を用いて,ABENをベースライン法と比較した。
その結果、ABENはこれらの指標でベースラインを上回りました。
関連論文リスト
- Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Self-Sufficient Framework for Continuous Sign Language Recognition [75.60327502570242]
この作業の目標は、継続的手話認識のための自己充足型のフレームワークを開発することです。
これには、理解のための手、顔、口などの複雑なマルチスケール機能、フレームレベルのアノテーションの欠如が含まれる。
ネットワークやアノテーションを必要とせずに手動と非手動の両方の機能を抽出するDivide and Focus Convolution (DFConv)を提案する。
DPLRは、基底真理グロスシーケンスラベルと予測シーケンスを組み合わせることにより、非スパイクフレームレベルの擬似ラベルを伝搬する。
論文 参考訳(メタデータ) (2023-03-21T11:42:57Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - On the Locality of Attention in Direct Speech Translation [0.1749935196721634]
トランスフォーマーは複数のNLPタスクにまたがって最先端の結果を得た。
直接音声翻訳における自己注意の有用性について論じる。
論文 参考訳(メタデータ) (2022-04-19T17:43:37Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Improving BERT with Syntax-aware Local Attention [14.70545694771721]
そこで本研究では,構文構造における距離を対象とする局所的注意度(局所注意度)を提案する。
文分類やシーケンスラベリングタスクなど,シングルセンテンスベンチマークの各種実験を行った。
我々のモデルは、構文的に関連のある単語により注意を払って、より良いパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-12-30T13:29:58Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Hybrid Attention-Based Transformer Block Model for Distant Supervision
Relation Extraction [20.644215991166902]
DSREタスクを実行するために,マルチインスタンス学習を用いたハイブリッドアテンションベースのトランスフォーマーブロックを用いた新しいフレームワークを提案する。
提案手法は評価データセットの最先端アルゴリズムより優れている。
論文 参考訳(メタデータ) (2020-03-10T13:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。