論文の概要: An Empirical Study of Translation Hypothesis Ensembling with Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.11430v1
- Date: Tue, 17 Oct 2023 17:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 14:52:17.924664
- Title: An Empirical Study of Translation Hypothesis Ensembling with Large
Language Models
- Title(参考訳): 大規模言語モデルを用いた翻訳仮説の実証的研究
- Authors: Ant\'onio Farinhas, Jos\'e G. C. de Souza, Andr\'e F. T. Martins
- Abstract要約: 大規模言語モデル (LLMs) は、一つの相応のソリューションになりつつあるが、時には幻覚や信頼できない出力を生成する。
そこで本研究では,仮説アンサンブルが生成したテキストの品質をいかに向上させるかを検討する。
- 参考スコア(独自算出の注目度): 9.068791020917217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are becoming a one-fits-many solution, but they
sometimes hallucinate or produce unreliable output. In this paper, we
investigate how hypothesis ensembling can improve the quality of the generated
text for the specific problem of LLM-based machine translation. We experiment
with several techniques for ensembling hypotheses produced by LLMs such as
ChatGPT, LLaMA, and Alpaca. We provide a comprehensive study along multiple
dimensions, including the method to generate hypotheses (multiple prompts,
temperature-based sampling, and beam search) and the strategy to produce the
final translation (instruction-based, quality-based reranking, and minimum
Bayes risk (MBR) decoding). Our results show that MBR decoding is a very
effective method, that translation quality can be improved using a small number
of samples, and that instruction tuning has a strong impact on the relation
between the diversity of the hypotheses and the sampling temperature.
- Abstract(参考訳): 大規模言語モデル (LLMs) は単相のソリューションになりつつあるが、時には幻覚や信頼できない出力を生成する。
本稿では,LLMを用いた機械翻訳の特定の問題に対して,仮説アンサンブルが生成したテキストの品質を向上する方法について検討する。
本研究は,ChatGPT,LLaMA,AlpacaなどのLLMが生み出す仮説を整理するためのいくつかの手法を実験した。
本研究では,仮説(多重プロンプト,温度ベースサンプリング,ビーム探索)の生成方法と,最終翻訳(指示ベース,品質ベースリランキング,最小ベイズリスク(mbr)復号)を作成する戦略を含む,多次元の包括的研究を行った。
その結果,mbrデコードは非常に効果的な手法であり,少数のサンプルを用いて翻訳品質を向上させることが可能であり,命令チューニングは仮説の多様性とサンプリング温度の関係に大きな影響を与えることがわかった。
関連論文リスト
- Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号工程における多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法の本質的な能力を推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法の総合的な比較と,ユーザのガイドラインとして推奨されるパラメータについて紹介する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - Turning Up the Heat: Min-p Sampling for Creative and Coherent LLM Outputs [4.122612309805664]
大規模言語モデル(LLM)は、各復号ステップにおける語彙上の確率分布から次のトークンをサンプリングしてテキストを生成する。
トップトークンの確率に応じてスケールすることでモデルの信頼度に基づいてサンプリングしきい値を調整する動的トランケーション法である min-p サンプリングを提案する。
我々はGPQA、GSM8K、AlpacaEval Creative Writingなどのベンチマーク実験を行い、min-pサンプリングが生成したテキストの品質と多様性を特に高温で改善することを示した。
論文 参考訳(メタデータ) (2024-07-01T08:37:25Z) - QUEST: Quality-Aware Metropolis-Hastings Sampling for Machine Translation [25.165239478219267]
本稿では,ギブス分布のエネルギー関数として,ノイズ品質推定の過度な信頼を回避するための簡易かつ効果的な手法を提案する。
分布のモードを探す代わりに、メトロポリス・ハスティングスアルゴリズムを用いて高密度領域から複数のサンプルを生成する。
論文 参考訳(メタデータ) (2024-05-28T17:36:06Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - A Preference-driven Paradigm for Enhanced Translation with Large Language Models [33.51585908894444]
大規模言語モデル(LLM)は,少数の並列データのみを用いて,優れた翻訳性能を実現する。
SFTは単にトークンレベルで参照翻訳を模倣するようにモデルに指示し、参照に存在するノイズに弱い。
この高原を克服するために、Planet-Luceモデルに基づく嗜好に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:52:47Z) - Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning [57.323716555996114]
オフターゲット翻訳は、特に低リソース言語では未解決の問題である。
最近の研究は、翻訳命令の機能を強調するために高度なプロンプト戦略を設計するか、LLMの文脈内学習能力を活用している。
本研究では,LLMの命令追従能力(特に翻訳方向)を向上させるために,2段階の微調整アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-03-21T13:47:40Z) - Adapting Large Language Models for Document-Level Machine Translation [46.370862171452444]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
近年の研究では、中程度のLLMはタスク固有の微調整後、より大きなLLMよりも優れていることが示されている。
本研究では,特定の言語対に対する文書レベルの機械翻訳(DocMT)にLLMを適用することに焦点を当てた。
論文 参考訳(メタデータ) (2024-01-12T09:29:13Z) - On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。
本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。
LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文 参考訳(メタデータ) (2023-11-15T03:29:02Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z) - Arithmetic Sampling: Parallel Diverse Decoding for Large Language Models [65.52639709094963]
ビームサーチやガンベルトップkサンプリングのような手法は、ビームの各要素に対して異なる出力を保証できるが、並列化は容易ではない。
本稿では,大言語モデルによって暗黙的に定義された算術符号書に従ってサンプリングを行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T22:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。