論文の概要: Dense Communication between Language Models
- arxiv url: http://arxiv.org/abs/2505.12741v1
- Date: Mon, 19 May 2025 05:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.430099
- Title: Dense Communication between Language Models
- Title(参考訳): 言語モデル間のDense Communication
- Authors: Shiguang Wu, Yaqing Wang, Quanming Yao,
- Abstract要約: 本稿では,Large Language Models (LLM) 間の直接密度ベクトル通信のパラダイムを提案する。
提案手法は,LSMが他と相互作用する際の不要な埋め込みや非埋め込みのステップを排除し,より効率的な情報伝達を可能にする。
トレーニングコストが0.1%未満で、同様のサイズでLLMに匹敵するパフォーマンスを実現するLMNetをトレーニングする。
- 参考スコア(独自算出の注目度): 41.631010796783706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As higher-level intelligence emerges from the combination of modular components with lower-level intelligence, many works combines Large Language Models (LLMs) for collective intelligence. Such combination is achieved by building communications among LLMs. While current systems primarily facilitate such communication through natural language, this paper proposes a novel paradigm of direct dense vector communication between LLMs. Our approach eliminates the unnecessary embedding and de-embedding steps when LLM interact with another, enabling more efficient information transfer, fully differentiable optimization pathways, and exploration of capabilities beyond human heuristics. We use such stripped LLMs as vertexes and optimizable seq2seq modules as edges to construct LMNet, with similar structure as MLPs. By utilizing smaller pre-trained LLMs as vertexes, we train a LMNet that achieves comparable performance with LLMs in similar size with only less than 0.1% training cost. This offers a new perspective on scaling for general intelligence rather than training a monolithic LLM from scratch. Besides, the proposed method can be used for other applications, like customizing LLM with limited data, showing its versatility.
- Abstract(参考訳): モジュラーコンポーネントと低レベルのインテリジェンスの組み合わせから高レベルのインテリジェンスが生まれると、多くの研究が集合インテリジェンスのためにLarge Language Models(LLM)を組み合わせている。
このような組み合わせは、LLM間の通信を構築することで実現される。
本稿では,LLM間の直接密度ベクトル通信のパラダイムを提案する。
提案手法は,LLMが他と相互作用する際の不要な埋め込みや非埋め込みのステップを排除し,より効率的な情報伝達,完全微分可能な最適化経路,人間のヒューリスティックスを超えた能力の探索を可能にする。
我々は、頂点として取り除かれたLLMを使用し、最適化可能なseq2seqモジュールをエッジとして、MDPと同様の構造でLMNetを構築する。
より小さなトレーニング済みLLMを頂点として利用することにより、トレーニングコストが0.1%未満のLLMに匹敵する性能を実現するLMNetを訓練する。
これにより、モノリシックなLLMをゼロからトレーニングするのではなく、汎用インテリジェンスのためのスケーリングに関する新たな視点が提供される。
提案手法は, LLMを限られたデータでカスタマイズし, その汎用性を示すなど, 他のアプリケーションにも適用可能である。
関連論文リスト
- zsLLMCode: An Effective Approach for Code Embedding via LLM with Zero-Shot Learning [6.976968804436321]
本稿では,大言語モデル(LLM)と文埋め込みモデルを用いて,新たなゼロショット手法であるzsLLMCodeを提案する。
その結果,最先端の教師なしアプローチに対する提案手法の有効性と優位性を実証した。
論文 参考訳(メタデータ) (2024-09-23T01:03:15Z) - Knowledge Fusion of Chat LLMs: A Preliminary Technical Report [51.0178356903925]
チャットLLMの融合を実現するためにFuseLLMフレームワークを拡張し,FusionChatを実現する。
本研究は, 構造的, スケール的な光源LLMの知識融合を行い, 軽量微調整により, 同一構造と大きさの複数の目標LLMを導出する。
我々は,異なるアーキテクチャとスケールを持つ3つの著名なチャットLLM,すなわちNH2-Mixtral-8x7B,NH2-Solar-10.7B,OpenChat-3.5-7Bを用いて,我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-02-25T15:11:58Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - Generative Multimodal Entity Linking [24.322540112710918]
MEL(Multimodal Entity Linking)は、知識ベースからの参照エンティティへの参照をマルチモーダルコンテキストでマッピングするタスクである。
既存のMEL法は主に複雑なマルチモーダル相互作用機構の設計に重点を置いており、すべてのモデルパラメータを微調整する必要がある。
大規模言語モデル(LLM)に基づくジェネレーティブマルチモーダルエンティティリンクフレームワークであるGEMELを提案する。
当社のフレームワークは市販の言語モデルと互換性があり、効率的で汎用的なソリューションへの道を開いたものです。
論文 参考訳(メタデータ) (2023-06-22T07:57:19Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。