Fugu-MT 論文翻訳(概要): Learning to Decode Collaboratively with Multiple Language Models

論文の概要: Learning to Decode Collaboratively with Multiple Language Models

arxiv url: http://arxiv.org/abs/2403.03870v2
Date: Tue, 27 Aug 2024 08:31:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 19:39:16.717882
Title: Learning to Decode Collaboratively with Multiple Language Models
Title（参考訳）: 複数言語モデルによる協調的復号化の学習
Authors: Shannon Zejiang Shen, Hunter Lang, Bailin Wang, Yoon Kim, David Sontag,
Abstract要約: 本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
参考スコア（独自算出の注目度）: 37.31339648499042
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a method to teach multiple large language models (LLM) to collaborate by interleaving their generations at the token level. We model the decision of which LLM generates the next token as a latent variable. By optimizing the marginal likelihood of a training set under our latent variable model, the base LLM automatically learns when to generate itself and when to call on one of the ``assistant'' language models to generate, all without direct supervision. Token-level collaboration during decoding allows for a fusion of each model's expertise in a manner tailored to the specific task at hand. Our collaborative decoding is especially useful in cross-domain settings where a generalist base LLM learns to invoke domain expert models. On instruction-following, domain-specific QA, and reasoning tasks, we show that the performance of the joint system exceeds that of the individual models. Through qualitative analysis of the learned latent decisions, we show models trained with our method exhibit several interesting collaboration patterns, e.g., template-filling. Our code is available at https://github.com/clinicalml/co-llm.
Abstract（参考訳）: 本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。 LLMが次のトークンを潜在変数として生成する決定をモデル化する。潜在変数モデルの下でのトレーニングセットの限界確率を最適化することにより、ベースLLMは、いつ生成するか、いつ‘assistant’言語モデルの1つを呼び出すのかを、直接の監督なしに自動的に学習する。復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。我々のコラボレーティブデコーディングは、ジェネリストベースLLMがドメインエキスパートモデルを呼び出すことを学習するクロスドメイン設定で特に有用である。命令追従、ドメイン固有のQA、推論タスクにおいて、関節システムの性能が個々のモデルよりも優れていることを示す。学習した潜伏決定の質的分析を通じて,本手法で訓練したモデルに,テンプレート充足などの興味深い協調パターンがいくつか示された。私たちのコードはhttps://github.com/clinicalml/co-llm.comで利用可能です。

関連論文リスト

Training-free LLM Merging for Multi-task Learning [74.93025750111019]
Hi-Mergingは、異なる特殊なLSMを単一のモデルに統合するためのトレーニング不要の方法である。中国語と英語の両方における複数選択および質問応答タスクの実験は、マルチタスク学習におけるHi-Mergingの能力を検証する。
論文参考訳（メタデータ） (2025-06-14T07:21:11Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [54.59207567677249]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文参考訳（メタデータ） (2025-05-23T20:28:31Z)
MergeBench: A Benchmark for Merging Domain-Specialized LLMs [19.49737955489798]
MergeBenchは、スケールでのモデルマージを評価するために設計された評価スイートである。 2Bから9BスケールのLlamaやGemmaファミリなど、最先端のオープンソース言語モデルの上に構築されている。マルチタスク性能, 忘れられたこと, 実行効率にまたがる8つの代表的なマージ手法を評価した。
論文参考訳（メタデータ） (2025-05-16T04:02:55Z)
Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文参考訳（メタデータ） (2024-12-31T08:32:15Z)
Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文参考訳（メタデータ） (2024-10-23T06:52:09Z)
A Model Is Not Built By A Single Prompt: LLM-Based Domain Modeling With Question Decomposition [4.123601037699469]
現実世界のドメインモデリングでは、エンジニアは通常複雑なタスクを簡単に解けるサブタスクに分解する。本稿では,開発者のモデリングプロセスに類似した質問分解によるLLMに基づくドメインモデリング手法を提案する。予備的な結果から,本手法は単発プロンプトによるプロンプトよりも優れていた。
論文参考訳（メタデータ） (2024-10-13T14:28:04Z)
EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。 EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-03T05:43:24Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文参考訳（メタデータ） (2024-04-27T09:00:39Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文参考訳（メタデータ） (2024-01-19T05:02:46Z)
LLM Augmented LLMs: Expanding Capabilities through Composition [56.40953749310957]
CALM -- 言語モデルの拡張のための構成 -- は、モデル間の相互アテンションを導入して、表現を構成し、新しい機能を有効にする。低リソース言語で訓練されたより小さなモデルでPaLM2-Sを増強すると、英語への翻訳のようなタスクで最大13%の改善が達成される。 PaLM2-Sがコード固有モデルで拡張されると、コード生成や説明タスクのベースモデルよりも40%向上する。
論文参考訳（メタデータ） (2024-01-04T18:53:01Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文参考訳（メタデータ） (2023-04-27T13:27:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。