Fugu-MT 論文翻訳(概要): Better Alignment with Instruction Back-and-Forth Translation

論文の概要: Better Alignment with Instruction Back-and-Forth Translation

arxiv url: http://arxiv.org/abs/2408.04614v2
Date: Tue, 13 Aug 2024 18:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 12:22:42.491211
Title: Better Alignment with Instruction Back-and-Forth Translation
Title（参考訳）: 前後訳によるより良いアライメント
Authors: Thao Nguyen, Jeffrey Li, Sewoong Oh, Ludwig Schmidt, Jason Weston, Luke Zettlemoyer, Xian Li,
Abstract要約: 本稿では,世界知識を基盤とした高品質な合成データを構築するために,バック・アンド・フォース・トランスフォーメーション(back-and-forth translation)という新たな手法を提案する。ウェブコーパスから文書が与えられた場合、Liらによって提案されたバックトランスレーション手法を用いて合成命令を生成し、キュレートする。我々は,Web上の情報多様性と量を活用しながら,効果的なアライメントに必要な応答の品質を確保しながら,両世界の長所を組み合わさっていることを発見した。
参考スコア（独自算出の注目度）: 120.19298407990267
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new method, instruction back-and-forth translation, to construct high-quality synthetic data grounded in world knowledge for aligning large language models (LLMs). Given documents from a web corpus, we generate and curate synthetic instructions using the backtranslation approach proposed by Li et al.(2023a), and rewrite the responses to improve their quality further based on the initial documents. Fine-tuning with the resulting (backtranslated instruction, rewritten response) pairs yields higher win rates on AlpacaEval than using other common instruction datasets such as Humpback, ShareGPT, Open Orca, Alpaca-GPT4 and Self-instruct. We also demonstrate that rewriting the responses with an LLM outperforms direct distillation, and the two generated text distributions exhibit significant distinction in embedding space. Further analysis shows that our backtranslated instructions are of higher quality than other sources of synthetic instructions, while our responses are more diverse and complex than those obtained from distillation. Overall we find that instruction back-and-forth translation combines the best of both worlds -- making use of the information diversity and quantity found on the web, while ensuring the quality of the responses which is necessary for effective alignment.
Abstract（参考訳）: 本研究では,大言語モデル(LLM)の整合性を実現するために,世界知識を基盤とした高品質な合成データを構築するための,バック・アンド・フォース変換法を提案する。ウェブコーパスから文書が与えられた場合、我々はLi et al (2023a) の提案した逆翻訳手法を用いて合成命令を生成してキュレートし、応答を書き直して、初期文書に基づいてその品質をさらに向上させる。結果として得られた(書き直された命令、書き直された応答)ペアによる微調整は、Humpback、ShareGPT、Open Orca、Alpaca-GPT4、Self-instructといった一般的な命令データセットよりもAlpacaEvalの方が高い利得率が得られる。また, LLMによる反応の書き直しは直接蒸留よりも優れており, 2つの生成したテキスト分布は埋め込み空間において顕著な差異を示した。さらに分析したところ, 逆転写命令は他の合成指示源よりも高品質であり, 反応は蒸留法よりも多種多様で複雑であることがわかった。全体として、バック・アンド・フォース・トランスフォーメーションは、Webで見いだされる情報の多様性と量を活用しながら、効果的なアライメントに必要なレスポンスの品質を確保しながら、両方の世界のベストを兼ね備えていることが分かります。

関連論文リスト

Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction [83.0216122783429]
Web Restruction(WebR)は、Webドキュメントから直接高品質な命令チューニング(IT)データを合成するための、完全に自動化されたフレームワークである。 WebRが生成したデータセットは、4つのインストラクションフォローベンチマークで、最先端のベースラインを最大16.65%上回ります。
論文参考訳（メタデータ） (2025-04-22T04:07:13Z)
Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis [55.65459867300319]
LLMは、主に高品質なデータセットの命令チューニングのために、自然言語命令に従う際、顕著な能力を示す。最近のアプローチでは、データ品質を改善するためにフィードバックが組み込まれているが、典型的にはサンプルレベルで運用され、個々のレスポンスに対してフィードバックを生成し、適用している。本稿では,厳密にキュレートされたシードデータから,高品質な参照サンプルに基づいてフィードバックを収集する新しい手法であるReference-Level Feedbackを提案する。
論文参考訳（メタデータ） (2025-02-06T21:29:00Z)
Salient Information Prompting to Steer Content in Prompt-based Abstractive Summarization [4.9201947803787744]
大規模言語モデル (LLMs) は、プロンプト技術を用いて、ドメイン間の流動的な要約を生成することができる。キーフレーズをプロンプトに追加することで、ROUGE F1とリコールが改善されることを示す。本稿では,有意なキーフレーズを抽出する軽量モデルであるKeyphrase Signal Extractor (SigExt)を紹介する。
論文参考訳（メタデータ） (2024-10-03T17:54:56Z)
TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文参考訳（メタデータ） (2024-09-15T00:38:34Z)
REInstruct: Building Instruction Data from Unlabeled Corpus [49.82314244648043]
本稿では,ラベルのないコーパスから命令データを自動的に構築するREInstructを提案する。 Llama-7bをREInstructから3kシードデータと32k合成データの組み合わせで訓練することにより、微細調整されたモデルがAlpacaEvalのリーダーボード上でテキストダヴィンチ003に対して65.41%の勝利率を達成する。
論文参考訳（メタデータ） (2024-08-20T09:05:03Z)
Advancing Translation Preference Modeling with RLHF: A Step Towards Cost-Effective Solution [57.42593422091653]
人間のフィードバックによる強化学習の活用による翻訳品質の向上について検討する。強力な言語能力を持つ報酬モデルは、翻訳品質の微妙な違いをより敏感に学習することができる。
論文参考訳（メタデータ） (2024-02-18T09:51:49Z)
Tuna: Instruction Tuning using Feedback from Large Language Models [74.04950416204551]
本稿では,新しいテキスト確率的ランキングとテキストコンテクスチュアルランキングを用いた命令調整型大規模言語モデルの微調整を提案する。確率的ランク付けにより、教師のLCMから高品質で低品質なレスポンスの相対的なランク付けを継承することができる。一方、文脈的ランキングを学習することで、より強いLLMの文脈的理解能力を用いて、モデルが独自の応答分布を洗練できる。
論文参考訳（メタデータ） (2023-10-20T09:55:06Z)
Self-Alignment with Instruction Backtranslation [162.02529653768096]
本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な命令従言語モデルを構築する方法を提案する。我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。
論文参考訳（メタデータ） (2023-08-11T17:47:54Z)
WikiLingua: A New Benchmark Dataset for Cross-Lingual Abstractive Summarization [41.578594261746055]
ウィキリンガ(WikiLingua)は,言語間抽象要約システムの評価のための大規模多言語データセットである。ウィキハウ(WikiHow)は,人文者によって書かれた多種多様なトピックに関するハウツーガイドの高品質で協調的な資料である。我々は、各記事のハウツーステップを記述するために使用されるイメージをアライメントすることで、言語間でのゴールドスタンダードな記事要約アライメントを作成する。
論文参考訳（メタデータ） (2020-10-07T00:28:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。