論文の概要: Better Alignment with Instruction Back-and-Forth Translation
- arxiv url: http://arxiv.org/abs/2408.04614v2
- Date: Tue, 13 Aug 2024 18:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:22:42.491211
- Title: Better Alignment with Instruction Back-and-Forth Translation
- Title(参考訳): 前後訳によるより良いアライメント
- Authors: Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li,
- Abstract要約: 本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。
ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。
我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
- 参考スコア(独自算出の注目度): 120.19298407990267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment.
- Abstract(参考訳): 本研究では,大言語モデル(LLM)の整合性を実現するために,世界知識を基盤とした高品質な合成データを構築するための,バック・アンド・フォース変換法を提案する。
ウェブコーパスから文書が与えられた場合、我々はLi et al (2023a) の提案した逆翻訳手法を用いて合成命令を生成してキュレートし、応答を書き直して、初期文書に基づいてその品質をさらに向上させる。
結果として得られた(書き直された命令、書き直された応答)ペアによる微調整は、Humpback、ShareGPT、Open Orca、Alpaca-GPT4、Self-instructといった一般的な命令データセットよりもAlpacaEvalの方が高い利得率が得られる。
また, LLMによる反応の書き直しは直接蒸留よりも優れており, 2つの生成したテキスト分布は埋め込み空間において顕著な差異を示した。
さらに分析したところ, 逆転写命令は他の合成指示源よりも高品質であり, 反応は蒸留法よりも多種多様で複雑であることがわかった。
全体として、バック・アンド・フォース・トランスフォーメーションは、Webで見いだされる情報の多様性と量を活用しながら、効果的なアライメントに必要なレスポンスの品質を確保しながら、両方の世界のベストを兼ね備えていることが分かります。
関連論文リスト
- Advancing Translation Preference Modeling with RLHF: A Step Towards
Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。
強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文 参考訳(メタデータ) (2024-02-18T09:51:49Z) - Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。
確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。
一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文 参考訳(メタデータ) (2023-10-20T09:55:06Z) - DoG-Instruct: Towards Premium Instruction-Tuning Data via Text-Grounded Instruction Wrapping [41.89443082174044]
本稿では,高品質な命令応答対を見つけるためのスケーラブルな解法を提案する。
文脈のない自己生成にのみ依存するのではなく、人間による文書に基づくペアを生成するためにLLMを訓練する。
提案手法は,幻覚を減らし,文書の表現をLLMでラップする手法である。
論文 参考訳(メタデータ) (2023-09-11T13:41:18Z) - Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。
我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文 参考訳(メタデータ) (2023-08-11T17:47:54Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Can Synthetic Translations Improve Bitext Quality? [28.910206570036593]
この研究は、人工翻訳を用いて、採掘されたbitextにおける潜在的に不完全な参照翻訳を改訂する方法を探求する。
合成サンプルは、原文を置き換える際に、追加のバイリンガル・インシュアランスを使わずに、bitextの品質を向上させることができる。
論文 参考訳(メタデータ) (2022-03-15T04:36:29Z) - WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive
Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。
ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。
我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文 参考訳(メタデータ) (2020-10-07T00:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。