論文の概要: IBERT: Idiom Cloze-style reading comprehension with Attention
- arxiv url: http://arxiv.org/abs/2112.02994v1
- Date: Fri, 5 Nov 2021 21:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 19:48:22.150323
- Title: IBERT: Idiom Cloze-style reading comprehension with Attention
- Title(参考訳): ibert: idiom clozeスタイルの読み理解と注意
- Authors: Ruiyang Qin, Haozheng Luo, Zheheng Fan, Ziang Ren
- Abstract要約: The cloze task is a challenge problem in Natural Language Processing (NLP) research problem。
このタスクに対する従来のアプローチは、Seq2Seq(Seq2Seq)モデルに基づいて構築されている。
本稿では,言語表現を符号化し,グローバルな文脈とローカルな文脈の両方で考慮する,BERTベースの埋め込みSeq2Seqモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Idioms are special fixed phrases usually derived from stories. They are
commonly used in casual conversations and literary writings. Their meanings are
usually highly non-compositional. The idiom cloze task is a challenge problem
in Natural Language Processing (NLP) research problem. Previous approaches to
this task are built on sequence-to-sequence (Seq2Seq) models and achieved
reasonably well performance on existing datasets. However, they fall short in
understanding the highly non-compositional meaning of idiomatic expressions.
They also do not consider both the local and global context at the same time.
In this paper, we proposed a BERT-based embedding Seq2Seq model that encodes
idiomatic expressions and considers them in both global and local context. Our
model uses XLNET as the encoder and RoBERTa for choosing the most probable
idiom for a given context. Experiments on the EPIE Static Corpus dataset show
that our model performs better than existing state-of-the-arts.
- Abstract(参考訳): 慣用句は、通常物語に由来する特別な固定句である。
カジュアルな会話や文学作品によく用いられる。
通常、その意味は非構成である。
Idiom cloze taskは自然言語処理(NLP)研究における課題である。
このタスクに対する以前のアプローチはシーケンシャル・ツー・シークエンス(seq2seq)モデルに基づいており、既存のデータセット上で合理的に優れたパフォーマンスを達成している。
しかし、それらは慣用表現の非常に非結合的な意味を理解するのに不足している。
また、ローカルとグローバルの両方のコンテキストを同時に考慮していない。
本稿では,言語表現を符号化し,グローバルな文脈とローカルな文脈で考慮するBERTベースの埋め込みSeq2Seqモデルを提案する。
我々のモデルは、与えられたコンテキストに対して最も確率の高いイディオムを選択するために、エンコーダとしてXLNETとRoBERTaを使用します。
epie静的コーパスデータセットの実験では、既存の最新データよりも優れた性能を示す。
関連論文リスト
- Generating Continuations in Multilingual Idiomatic Contexts [2.0849578298972835]
非合成図形テキストを含むニュアンス言語理解における生成言語モデル(LM)の能力を検証する。
3つの異なるトレーニング設定の下で、2つの異なる言語(英語とポルトガル語)でデータセットを使用して実験を行う。
以上の結果から,本モデルでは慣用的文脈よりも文脈の連続性をわずかに向上し,マージンが極端に小さいことが示唆された。
論文 参考訳(メタデータ) (2023-10-31T05:40:33Z) - Reasoning about Ambiguous Definite Descriptions [2.5398014196797605]
自然言語推論は、複雑な言語理解タスクを解く言語モデルの能力を改善する上で重要な役割を果たす。
言語におけるあいまいさを解決するために、大規模言語モデルが明示的な推論をどの程度有効に活用できるかを評価するためのリソースは存在しない。
この目的のためにあいまいな明確な記述を用い、そのようなフレーズからなる最初のベンチマークデータセットを作成し、公開することを提案する。
論文 参考訳(メタデータ) (2023-10-23T07:52:38Z) - SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence
Understanding [103.34092301324425]
大規模言語モデル(LLM)は、オープンドメインのNLPタスクに顕著な能力を示している。
本稿では、オープンドメインの自然言語理解に特化して強化された、バイリンガル(英語と中国語)のオープンソース自己回帰モデルSeqGPTを提案する。
論文 参考訳(メタデータ) (2023-08-21T07:31:19Z) - Prompting Large Language Models to Reformulate Queries for Moment
Localization [79.57593838400618]
モーメントローカライゼーションのタスクは、与えられた自然言語クエリの未トリミングビデオ中の時間モーメントをローカライズすることである。
我々は,モーメントクエリを大規模言語モデルを用いて命令セットに再構成し,ローカライズモデルに親しみやすくするための初期の試みを行っている。
論文 参考訳(メタデータ) (2023-06-06T05:48:09Z) - Zero and Few-shot Semantic Parsing with Ambiguous Inputs [45.285508941560295]
私たちは、曖昧な自然言語を論理やコードといった形式的な表現に変換するためのフレームワーク、データセット、課題であるAmPを紹介します。
我々は,AmPを用いて,複数ショットのテキスト・ツー・コードシステムがあいまいさをどのように処理し,新しいメトリクスを3つ導入するかを検討する。
事前学習された大規模なモデルでは,意図的な指示を伴わずに,可能な意味の分布を把握できないことが判明した。
論文 参考訳(メタデータ) (2023-06-01T15:46:36Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - InDEX: Indonesian Idiom and Expression Dataset for Cloze Test [1.2691047660244335]
InDEXは,クローゼテストのためのインドネシア語表現とデータセットである。
データセットには289のイディオムと表現のための10438の文が含まれている。
我々は15種類のイントラクタを生成し、その結果、大きなクローゼスタイルのコーパスが生成される。
論文 参考訳(メタデータ) (2022-11-24T02:05:47Z) - Structural generalization is hard for sequence-to-sequence models [85.0087839979613]
シーケンス・ツー・シーケンス(seq2seq)モデルは、多くのNLPタスクで成功している。
構成一般化に関する最近の研究は、セq2seqモデルは訓練で見られなかった言語構造への一般化において非常に低い精度を達成することを示した。
論文 参考訳(メタデータ) (2022-10-24T09:03:03Z) - EfficientQA : a RoBERTa Based Phrase-Indexed Question-Answering System [0.0]
本稿では,言語モデルの自然言語理解を,質問や回答候補を表す密接なベクトルに移す可能性について検討する。
提案モデルでは,Phrase-Indexed Question Answering (PIQA) における最先端結果が,精度1.3ポイント,f1スコア1.4ポイントで達成されている。
論文 参考訳(メタデータ) (2021-01-06T17:46:05Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。