論文の概要: Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation
- arxiv url: http://arxiv.org/abs/2503.03462v1
- Date: Wed, 05 Mar 2025 12:52:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:55.975039
- Title: Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation
- Title(参考訳): 多言語クラウドワーカーとしてのオープンソースの大規模言語モデル:ターゲットなし,機械翻訳なしの複数言語におけるオープンドメイン対話の合成
- Authors: Ahmed Njifenjou, Virgile Sucal, Bassam Jabaian, Fabrice Lefèvre,
- Abstract要約: 大規模言語モデルを用いて複数のターゲット言語でオープンドメイン対話データを生成するパイプラインを提案する。
生成した対話の開放性を高め,実生活を模倣するために,話者が関与する会話の種類に応じた発話イベントの概念を追加した。
- 参考スコア(独自算出の注目度): 1.7436854281619139
- License:
- Abstract: The prevailing paradigm in the domain of Open-Domain Dialogue agents predominantly focuses on the English language, encompassing both models and datasets. Furthermore, the financial and temporal investments required for crowdsourcing such datasets for finetuning are substantial, particularly when multiple languages are involved. Fortunately, advancements in Large Language Models (LLMs) have unveiled a plethora of possibilities across diverse tasks. Specifically, instruction-tuning has enabled LLMs to execute tasks based on natural language instructions, occasionally surpassing the performance of human crowdworkers. Additionally, these models possess the capability to function in various languages within a single thread. Consequently, to generate new samples in different languages, we propose leveraging these capabilities to replicate the data collection process. We introduce a pipeline for generating Open-Domain Dialogue data in multiple Target Languages using LLMs, with demonstrations provided in a unique Source Language. By eschewing explicit Machine Translation in this approach, we enhance the adherence to language-specific nuances. We apply this methodology to the PersonaChat dataset. To enhance the openness of generated dialogues and mimic real life scenarii, we added the notion of speech events corresponding to the type of conversation the speakers are involved in and also that of common ground which represents the premises of a conversation.
- Abstract(参考訳): オープンドメイン対話エージェントの領域における一般的なパラダイムは、主にモデルとデータセットの両方を含む英語に焦点を当てている。
さらに、このようなデータセットを微調整のためにクラウドソーシングするのに必要となる財政的・時間的投資は、特に複数の言語が関与する場合に顕著である。
幸いなことに、LLM(Large Language Models)の進歩は、さまざまなタスクにまたがる多くの可能性を明らかにしている。
具体的には、命令チューニングにより、LLMは自然言語の命令に基づいてタスクを実行することができ、時には人間のクラウドワーカーのパフォーマンスを上回ります。
さらに、これらのモデルは単一のスレッド内で様々な言語で機能する機能を持っている。
その結果、異なる言語で新しいサンプルを生成するために、データ収集プロセスの複製にこれらの機能を活用することを提案する。
LLMを用いて複数のターゲット言語でオープンドメイン対話データを生成するパイプラインを導入し、ユニークなソース言語でデモンストレーションを行う。
本手法では,明示的な機械翻訳を取り入れることで,言語固有のニュアンスへの付着性を高める。
この手法を PersonaChat データセットに適用する。
生成した対話の開放性を高め,実生活を模倣するために,話者が関与する会話の種類に応じた発話イベントの概念と,会話の前提を表す共通場の概念を加えた。
関連論文リスト
- Can xLLMs Understand the Structure of Dialog? Exploring Multilingual Response Generation in Complex Scenarios [8.131774353504472]
マルチパーティポッドキャスト対話をベースとした,高品質な並列多言語データセットであるXMPを紹介する。
データセットの各サンプルには、社会、文化、政治、エンターテイメントなど、幅広いトピックを議論する少なくとも3人の参加者が含まれている。
このような複雑な対話シナリオに適用した場合、LLMの従来認識されていた多言語機能に重大な制限が生じる。
論文 参考訳(メタデータ) (2025-01-20T04:33:03Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Enhancing Multilingual Speech Generation and Recognition Abilities in LLMs with Constructed Code-switched Data [30.966072545451183]
本論文では,MutltiLingual MultiTask (MLMT)モデルを提案する。
我々は,異なる言語からの単語を分割し,CSデータに頼ることなくCS能力を備えた合成を行う,効果的なデータ構築手法を開発した。
論文 参考訳(メタデータ) (2024-09-17T08:11:07Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multi2WOZ: A Robust Multilingual Dataset and Conversational Pretraining
for Task-Oriented Dialog [67.20796950016735]
Multi2WOZデータセットは、中国語、ドイツ語、アラビア語、ロシア語の4つの言語にまたがる。
本稿では,任意の下流TODタスクに対する言語間移動を容易にすることを目的とした,事前学習言語モデル(PrLM)の多言語会話特化のための新しいフレームワークを提案する。
実験の結果,目標言語における(I)会話の特殊化と,(II)具体的なTODタスクのための少数ショット転送の組み合わせが,ほとんどの場合,最高の性能を示すことがわかった。
論文 参考訳(メタデータ) (2022-05-20T18:35:38Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。