論文の概要: A Dataset and Baselines for Multilingual Reply Suggestion
- arxiv url: http://arxiv.org/abs/2106.02017v1
- Date: Thu, 3 Jun 2021 17:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:20:02.234920
- Title: A Dataset and Baselines for Multilingual Reply Suggestion
- Title(参考訳): 多言語応答提案のためのデータセットとベースライン
- Authors: Mozhi Zhang, Wei Wang, Budhaditya Deb, Guoqing Zheng, Milad Shokouhi,
Ahmed Hassan Awadallah
- Abstract要約: MRSは10言語からなる多言語応答提案データセットである。
MRSは、1) 一定の集合から応答を選択する検索モデルと、2) ゼロから応答を生成する生成モデルである。
- 参考スコア(独自算出の注目度): 27.75969288439418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reply suggestion models help users process emails and chats faster. Previous
work only studies English reply suggestion. Instead, we present MRS, a
multilingual reply suggestion dataset with ten languages. MRS can be used to
compare two families of models: 1) retrieval models that select the reply from
a fixed set and 2) generation models that produce the reply from scratch.
Therefore, MRS complements existing cross-lingual generalization benchmarks
that focus on classification and sequence labeling tasks. We build a generation
model and a retrieval model as baselines for MRS. The two models have different
strengths in the monolingual setting, and they require different strategies to
generalize across languages. MRS is publicly available at
https://github.com/zhangmozhi/mrs.
- Abstract(参考訳): replyの提案モデルは、メールやチャットの処理を高速化する。
前回の研究は英語による回答のみである。
代わりに、10言語からなる多言語リプライ提案データセットmrsを提案する。
mrsは、1)固定された集合から応答を選択する検索モデル、2)スクラッチから応答を生成する生成モデルという2種類のモデルを比較するのに使うことができる。
したがって、mrsは分類とシーケンスラベリングタスクに焦点を当てた既存の言語間一般化ベンチマークを補完する。
MRSのベースラインとして生成モデルと検索モデルを構築した。
2つのモデルは単言語環境において異なる強みを持ち、言語をまたいで一般化するために異なる戦略を必要とする。
MRSはhttps://github.com/zhangmozhi/mrs.comで公開されている。
関連論文リスト
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - RAG-Check: Evaluating Multimodal Retrieval Augmented Generation Performance [28.63893944806149]
Retrieval-augmented Generation (RAG)は、外部知識を用いて、応答生成をガイドし、幻覚を減らすことで、大きな言語モデルを改善する。
RAGは新しい幻覚源を導入することができる: (i) 検索プロセスはデータベースから無関係な部分を生のコンテキストとして選択でき、 (ii) 検索された画像はテキストベースのコンテキストに処理される。
i)関連度スコア(RS)、検索項目の関連性の評価、(ii)正しさスコア(CS)、生成した応答の正確性の評価の2つのパフォーマンス尺度を用いてマルチモーダルRAGの信頼性を評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-07T18:52:05Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen
Large Language Models [69.59125732317972]
本稿では,ビデオQAのためのシンプルで効果的な検索・回答(R2A)フレームワークを提案する。
R2Aは、まず、事前訓練されたマルチモーダルモデルを用いて、ジェネリックテキストコーパスから意味論的に類似したテキストの集合を検索する。
質問と検索されたテキストの両方で、LSMを直接使用して、望ましい回答を得ることができる。
論文 参考訳(メタデータ) (2023-06-15T20:56:20Z) - Bactrian-X: Multilingual Replicable Instruction-Following Models with
Low-Rank Adaptation [40.695782736177264]
Bactrian-Xは52言語にわたる340万の命令応答対の包括的な多言語並列データセットである。
大規模言語モデルとシームレスに統合可能な軽量なコンポーネントであるローランク適応(LoRA)を用いて,アダプタセットをトレーニングする。
様々な多言語評価設定の実験では、バニラモデルと既存の命令調整モデルの両方において、バクタリアンXによるLoRAベースのトレーニングから派生したモデルが優れていることが示されている。
論文 参考訳(メタデータ) (2023-05-24T10:50:31Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Towards Zero-shot Cross-lingual Image Retrieval and Tagging [1.4425878137951236]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
論文 参考訳(メタデータ) (2021-09-15T23:39:15Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - A Configurable Multilingual Model is All You Need to Recognize All
Languages [52.274446882747455]
本稿では,1回しか訓練されない新しい多言語モデル(CMM)を提案する。
CMMは、ユーザが1つ、2つ、3つの言語を選択すると、一般的な多言語モデルから26.4%、16.9%、および10.4%の単語誤りを減らす。
論文 参考訳(メタデータ) (2021-07-13T06:52:41Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。