論文の概要: Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
- arxiv url: http://arxiv.org/abs/2605.12460v1
- Date: Tue, 12 May 2026 17:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:57.064411
- Title: Multi-Stream LLMs: Unblocking Language Models with Parallel Streams of Thoughts, Inputs and Outputs
- Title(参考訳): マルチストリームLLM:思考・入力・出力の並列ストリームを用いた言語モデルの非ブロック化
- Authors: Guinan Su, Yanwu Yang, Xueyan Li, Jonas Geiping,
- Abstract要約: 逐次メッセージフォーマットの命令チューニングから並列処理の並列ストリームの命令チューニングに切り替えることで,モデルをブロック解除できることを示す。
言語モデルのすべてのフォワードパスは、同時に複数の入力ストリームから読み込み、複数の出力ストリームでトークンを生成します。
- 参考スコア(独自算出の注目度): 35.566195808249695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continued improvements in language model capability have unlocked their widespread use as drivers of autonomous agents, for example in coding or computer use applications. However, the core of these systems has not changed much since early instruction-tuned models like ChatGPT. Even advanced AI agents function on message exchange formats, successively exchanging messages with users, systems, with itself (i.e. chain-of-thought) and tools in a single stream of computation. This bottleneck to a single stream in chat models leads to a number of limitations: the agent cannot act (generate output) while reading, and in reverse, cannot react to new information while writing. Similarly, the agent cannot act while thinking and cannot think while reading or acting on information. In this work, we show that models can be unblocked by switching from instruction-tuning for sequential message formats to instruction-tuning for multiple, parallel streams of computation, splitting each role into a separate stream. Every forward pass of the language model then simultaneously reads from multiple input streams and generates tokens in multiple output streams, all of which causally depend on earlier timesteps. We argue that this data-driven change remedies a number of usability limitations as outlined above, improves model efficiency through parallelization, improves model security through better separation of concerns and can further improve model monitorability.
- Abstract(参考訳): 言語モデル機能の継続的な改善は、例えばコーディングやコンピュータ利用アプリケーションにおいて、自律エージェントのドライバとして広く使用されていることを解放している。
しかし、これらのシステムのコアはChatGPTのような初期の命令調整モデルから大きく変わっていない。
高度なAIエージェントでさえ、メッセージ交換フォーマットで機能し、ユーザー、システム、それ自体(チェーン・オブ・思想)、ツールを単一の計算ストリームで順次交換する。
このチャットモデルでの単一ストリームに対するボトルネックは、エージェントが読み込み中に動作(出力の生成)できず、逆に書き込み中に新しい情報に反応することができない、という多くの制限につながります。
同様に、エージェントは思考中は行動できず、情報を読みながらも行動しながらも思考できない。
本研究では、逐次メッセージフォーマットの命令チューニングから並列処理の並列ストリームの命令チューニングに切り換え、各ロールを個別のストリームに分割することで、モデルがブロックされないことを示す。
言語モデルのすべてのフォワードパスは、同時に複数の入力ストリームから読み込み、複数の出力ストリームでトークンを生成します。
このデータ駆動型変更は、上述したように、多くのユーザビリティの制限を是正し、並列化によるモデルの効率の向上、関心事の分離の改善によるモデルのセキュリティの向上、モデルの監視性の向上を図っている。
関連論文リスト
- Augmenting Multi-Agent Communication with State Delta Trajectory [44.68954502805962]
本稿では,自然言語トークンとトークン単位の状態遷移の両方をエージェントから別のエージェントに転送する新しい通信プロトコルを提案する。
それぞれのトークンを生成した後のLSMの状態変化のシーケンスは、推論プロセスの裏側に隠された情報をよりよく反映できることがわかった。
実験の結果,SDEを用いたマルチエージェントシステムでは,他の通信プロトコルと比較してSOTAの性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-06-24T00:38:25Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Remote Timing Attacks on Efficient Language Model Inference [63.79839291641793]
タイミング差を利用してタイミングアタックをマウントできることが示される。
90%以上の精度でユーザの会話の話題を学習することができるかを示す。
相手はブースティング攻撃を利用して、オープンソースのシステム用のメッセージに置かれたPIIを回復することができる。
論文 参考訳(メタデータ) (2024-10-22T16:51:36Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。