論文の概要: A Dataset and Baselines for Multilingual Reply Suggestion
- arxiv url: http://arxiv.org/abs/2106.02017v1
- Date: Thu, 3 Jun 2021 17:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:20:02.234920
- Title: A Dataset and Baselines for Multilingual Reply Suggestion
- Title(参考訳): 多言語応答提案のためのデータセットとベースライン
- Authors: Mozhi Zhang, Wei Wang, Budhaditya Deb, Guoqing Zheng, Milad Shokouhi,
Ahmed Hassan Awadallah
- Abstract要約: MRSは10言語からなる多言語応答提案データセットである。
MRSは、1) 一定の集合から応答を選択する検索モデルと、2) ゼロから応答を生成する生成モデルである。
- 参考スコア(独自算出の注目度): 27.75969288439418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reply suggestion models help users process emails and chats faster. Previous
work only studies English reply suggestion. Instead, we present MRS, a
multilingual reply suggestion dataset with ten languages. MRS can be used to
compare two families of models: 1) retrieval models that select the reply from
a fixed set and 2) generation models that produce the reply from scratch.
Therefore, MRS complements existing cross-lingual generalization benchmarks
that focus on classification and sequence labeling tasks. We build a generation
model and a retrieval model as baselines for MRS. The two models have different
strengths in the monolingual setting, and they require different strategies to
generalize across languages. MRS is publicly available at
https://github.com/zhangmozhi/mrs.
- Abstract(参考訳): replyの提案モデルは、メールやチャットの処理を高速化する。
前回の研究は英語による回答のみである。
代わりに、10言語からなる多言語リプライ提案データセットmrsを提案する。
mrsは、1)固定された集合から応答を選択する検索モデル、2)スクラッチから応答を生成する生成モデルという2種類のモデルを比較するのに使うことができる。
したがって、mrsは分類とシーケンスラベリングタスクに焦点を当てた既存の言語間一般化ベンチマークを補完する。
MRSのベースラインとして生成モデルと検索モデルを構築した。
2つのモデルは単言語環境において異なる強みを持ち、言語をまたいで一般化するために異なる戦略を必要とする。
MRSはhttps://github.com/zhangmozhi/mrs.comで公開されている。
関連論文リスト
- Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Bactrian-X: Multilingual Replicable Instruction-Following Models with
Low-Rank Adaptation [40.695782736177264]
Bactrian-Xは52言語にわたる340万の命令応答対の包括的な多言語並列データセットである。
大規模言語モデルとシームレスに統合可能な軽量なコンポーネントであるローランク適応(LoRA)を用いて,アダプタセットをトレーニングする。
様々な多言語評価設定の実験では、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-24T10:50:31Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Towards Zero-shot Cross-lingual Image Retrieval and Tagging [1.4425878137951236]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
論文 参考訳(メタデータ) (2021-09-15T23:39:15Z) - A Conditional Generative Matching Model for Multi-lingual Reply
Suggestion [23.750966630981623]
複数の言語に対応可能な多言語自動応答提案(RS)モデルの問題点について検討する。
本稿では,多言語RSから生じる課題に対処するために,変分オートエンコーダフレームワーク内で最適化された条件付き生成マッチングモデル(CGM)を提案する。
論文 参考訳(メタデータ) (2021-09-15T01:54:41Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - A Configurable Multilingual Model is All You Need to Recognize All
Languages [52.274446882747455]
本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。
CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
論文 参考訳(メタデータ) (2021-07-13T06:52:41Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。