論文の概要: CALICO: Conversational Agent Localization via Synthetic Data Generation
- arxiv url: http://arxiv.org/abs/2412.05388v1
- Date: Fri, 06 Dec 2024 19:29:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:59:04.559141
- Title: CALICO: Conversational Agent Localization via Synthetic Data Generation
- Title(参考訳): CALICO: 合成データ生成による会話エージェントのローカライゼーション
- Authors: Andy Rosenbaum, Pegah Kharazmi, Ershad Banijamali, Lu Zeng, Christopher DiPersio, Pan Wei, Gokmen Oz, Clement Chung, Karolina Owczarzak, Fabian Triefenbach, Wael Hamza,
- Abstract要約: 本稿では,対話エージェントの学習データをある言語から別の言語にローカライズするために,大規模言語モデル(LLM)を微調整する手法であるCALICOを提案する。
スロット(名前付きエンティティ)では、CALICOは動詞のコピー、リテラル翻訳、ローカライゼーションの3つの操作をサポートする。
本稿では,CALICOがより正確なスロット変換を生成するHTケースと,HLテストセットに近いローカライズされたスロットを生成するHLケースの両方で,最先端のlingUIST(文脈外リテラルスロット変換に依存している)を性能的に向上させることを示す。
- 参考スコア(独自算出の注目度): 15.615001146063515
- License:
- Abstract: We present CALICO, a method to fine-tune Large Language Models (LLMs) to localize conversational agent training data from one language to another. For slots (named entities), CALICO supports three operations: verbatim copy, literal translation, and localization, i.e. generating slot values more appropriate in the target language, such as city and airport names located in countries where the language is spoken. Furthermore, we design an iterative filtering mechanism to discard noisy generated samples, which we show boosts the performance of the downstream conversational agent. To prove the effectiveness of CALICO, we build and release a new human-localized (HL) version of the MultiATIS++ travel information test set in 8 languages. Compared to the original human-translated (HT) version of the test set, we show that our new HL version is more challenging. We also show that CALICO out-performs state-of-the-art LINGUIST (which relies on literal slot translation out of context) both on the HT case, where CALICO generates more accurate slot translations, and on the HL case, where CALICO generates localized slots which are closer to the HL test set.
- Abstract(参考訳): 本稿では,対話エージェントの学習データをある言語から別の言語にローカライズするために,大規模言語モデル(LLM)を微調整する手法であるCALICOを提案する。
スロット(名前はエンティティ)については、3つの操作をサポートする: 動詞のコピー、リテラル翻訳、ローカライゼーション、すなわち、言語が話されている国にある市や空港の名前など、ターゲット言語でより適切なスロット値を生成する。
さらに, 雑音発生サンプルを除去する反復フィルタリング機構を設計し, 下流対話エージェントの性能向上を示す。
CALICOの有効性を証明するため、我々は8言語で設定されたMultiATIS++旅行情報テストの新しい人間ローカル化(HL)バージョンを構築し、リリースする。
テストセットのオリジナルの人間翻訳版(HT)と比較すると、我々の新しいHLバージョンはより難しい。
また,CALICOは,より正確なスロット変換を生成するHTケースと,HLテストセットに近いローカライズされたスロットを生成するHLケースの両方で,最先端のlingUIST(文脈外リテラルスロット変換に依存している)を性能的に向上することを示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Localizing Open-Ontology QA Semantic Parsers in a Day Using Machine
Translation [7.104736898689835]
セマンティックローカライザ(Semantic Localizer, SPL)は, 機械翻訳(NMT)システムを利用して, 新しい言語のセマンティックデータセットをローカライズするツールキットである。
提案手法は,公共のWebサイトから抽出したローカルエンティティを機械翻訳して,ターゲット言語で自動的に学習データを生成する手法である。
提案手法は, ホテルで30%以上, レストランで40%以上, テスト言語でローカライズされたレストランで40%以上, 従来の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-10T22:03:58Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。