論文の概要: Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?
- arxiv url: http://arxiv.org/abs/2406.12822v3
- Date: Thu, 26 Sep 2024 17:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 01:22:29.858633
- Title: Is It Good Data for Multilingual Instruction Tuning or Just Bad Multilingual Evaluation for Large Language Models?
- Title(参考訳): 大規模言語モデルの多言語指導チューニングに良いデータか、それとも単に多言語評価に悪いデータか?
- Authors: Pinzhen Chen, Simon Yu, Zhicheng Guo, Barry Haddow,
- Abstract要約: 命令データの性質がモデル出力に影響を及ぼすかどうかは不明である。
翻訳されたテストセットがそのようなニュアンスをキャプチャできるかどうかは疑わしい。
ネイティブまたはジェネレーションベンチマークでは、ネイティブとトランスポートされたインストラクションデータの間に顕著な違いがあることが示されている。
- 参考スコア(独自算出の注目度): 17.011882550422452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual large language models are designed, claimed, and expected to cater to speakers of varied languages. We hypothesise that the current practices of fine-tuning and evaluating these models may not perfectly align with this objective owing to a heavy reliance on translation, which cannot cover language-specific knowledge but can introduce translation defects. It remains unknown whether the nature of the instruction data has an impact on the model output; conversely, it is questionable whether translated test sets can capture such nuances. Due to the often coupled practices of using translated data in both stages, such imperfections could have been overlooked. This work investigates these issues using controlled native or translated data during the instruction tuning and evaluation stages. We show that native or generation benchmarks reveal a notable difference between native and translated instruction data especially when model performance is high, whereas other types of test sets cannot. The comparison between round-trip and single-pass translations reflects the importance of knowledge from language-native resources. Finally, we demonstrate that regularization is beneficial to bridging this gap on structured but not generative tasks.
- Abstract(参考訳): 多言語大言語モデルは設計され、主張され、様々な言語の話者に適応することが期待されている。
これらのモデルを微調整し評価する現在の実践は、言語固有の知識をカバーできないが翻訳欠陥を導入できる翻訳に大きく依存しているため、この目的と完全に一致しない可能性があると仮定する。
命令データの性質がモデル出力に影響を及ぼすかどうかは不明であるが、逆に、翻訳されたテストセットがそのようなニュアンスを捕捉できるかどうかは疑問である。
両段階での翻訳データの使用は、しばしば混在しているため、このような不完全性は見過ごされた可能性がある。
本研究は,制御されたネイティブデータや翻訳データを用いて,授業のチューニングと評価の段階でこれらの問題を調査する。
モデルの性能が高い場合, ネイティブまたはジェネレーションのベンチマークでは, ネイティブとトランスポートされた命令データの間に顕著な差があることが示されている。
ラウンドトリップとシングルパスの翻訳の比較は、言語固有のリソースからの知識の重要性を反映している。
最後に、このギャップを構造的だが生成的タスクで埋めるには、正規化が有益であることを示す。
関連論文リスト
- X-Instruction: Aligning Language Model in Low-resource Languages with Self-curated Cross-lingual Instructions [43.90353059292894]
大規模な言語モデルは、英語のような高リソース言語ではうまく反応するが、低リソース言語では苦労する。
そこで本研究では,低リソース言語における英語の命令と応答を併用した言語間命令を新たに構築する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:45:23Z) - Translation Errors Significantly Impact Low-Resource Languages in
Cross-Lingual Learning [26.49647954587193]
本研究では,翻訳の不整合が存在し,XNLIの低リソース言語に不均等に影響を及ぼすことを示す。
このような矛盾を識別するために,人間翻訳テキストと機械翻訳ターゲットテキストにおけるゼロショット評価の差を計測する手法を提案する。
また,Hindi と Urdu という2つの言語に対して,人間が翻訳したテストインスタンスを手動で再注釈することで,翻訳エラーが存在することも確認した。
論文 参考訳(メタデータ) (2024-02-03T08:22:51Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Cross-Lingual Fine-Grained Entity Typing [26.973783464706447]
本稿では,100以上の言語を処理可能な,言語間を包含したエンティティタイピングモデルを提案する。
このモデルが学習中に見つからない言語やエンティティに一般化する能力について分析する。
論文 参考訳(メタデータ) (2021-10-15T03:22:30Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。