Fugu-MT 論文翻訳(概要): Communicating Activations Between Language Model Agents

論文の概要: Communicating Activations Between Language Model Agents

arxiv url: http://arxiv.org/abs/2501.14082v1
Date: Thu, 23 Jan 2025 20:41:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.567852
Title: Communicating Activations Between Language Model Agents
Title（参考訳）: 言語モデルエージェント間のアクティベーションのコミュニケーション
Authors: Vignav Ramesh, Kenneth Li,
Abstract要約: マルチ言語モデル (LM) エージェント間の通信は、LMの推論能力を高めることが示されている。自然言語は、LM間通信の主要な媒体である。本稿では,LMがアクティベーションを介して通信する手法を提案する。
参考スコア（独自算出の注目度）: 0.9043578619916239
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Communication between multiple language model (LM) agents has been shown to scale up the reasoning ability of LMs. While natural language has been the dominant medium for inter-LM communication, it is not obvious this should be the standard: not only does natural language communication incur high inference costs that scale quickly with the number of both agents and messages, but also the decoding process abstracts away too much rich information that could be otherwise accessed from the internal activations. In this work, we propose a simple technique whereby LMs communicate via activations; concretely, we pause an LM $\textit{B}$'s computation at an intermediate layer, combine its current activation with another LM $\textit{A}$'s intermediate activation via some function $\textit{f}$, then pass $\textit{f}$'s output into the next layer of $\textit{B}$ and continue the forward pass till decoding is complete. This approach scales up LMs on new tasks with zero additional parameters and data, and saves a substantial amount of compute over natural language communication. We test our method with various functional forms $\textit{f}$ on two experimental setups--multi-player coordination games and reasoning benchmarks--and find that it achieves up to $27.0\%$ improvement over natural language communication across datasets with $<$$1/4$ the compute, illustrating the superiority and robustness of activations as an alternative "language" for communication between LMs.
Abstract（参考訳）: マルチ言語モデル(LM)エージェント間の通信は、LMの推論能力を高めることが示されている。自然言語通信は、エージェントとメッセージの両方の数で高速にスケールする高い推論コストをもたらすだけでなく、デコードプロセスは、内部のアクティベーションからアクセスできないような、豊富な情報を抽象化する。具体的には、LM $\textit{B}$'s計算を中間層で停止し、その現在のアクティベーションを別のLM $\textit{A}$'s中間アクティベーションと組み合わせ、ある関数$\textit{f}$を経由し、$\textit{f}$の出力を次の層の$\textit{B}$に渡す。このアプローチは、パラメータやデータを追加せずに新しいタスク上でLMをスケールアップし、自然言語通信よりもかなりの量の計算を節約する。実験的な2つのセットアップ(マルチプレイヤコーディネートゲームと推論ベンチマーク)で、さまざまな関数型$\textit{f}$でテストし、計算量$<$1/4$のデータセット間での自然言語通信よりも最大で27.0\%の改善を実現し、LM間の通信に代えてアクティベーションの優越性と堅牢性を示す。

関連論文リスト

From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control [58.72492647570062]
我々は,制限を克服する代替アーキテクチャとして,Learningable Latent Codes as Bridges (LCB)を導入した。 methodoutperforms baselines that leverage pure language as the interface layer on tasks that requires reasoning and multi-step behaviors。
論文参考訳（メタデータ） (2024-05-08T04:14:06Z)
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。 IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文参考訳（メタデータ） (2024-03-06T17:52:08Z)
How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。 LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文参考訳（メタデータ） (2024-02-29T02:55:26Z)
LAMPAT: Low-Rank Adaption for Multilingual Paraphrasing Using Adversarial Training [19.173992333194683]
パラフレーズ(英: Paraphrase)とは、異なる単語や文構造を用いて同じ意味を伝えるテキストである。これまでの研究は機械翻訳の知識を活用し、ゼロショット機械翻訳によるパラフレーズを同じ言語で生成してきた。単言語データセットが人間に似た多文を生成するのに十分である最初の教師なし多言語パラフレーズモデル LAMPAT を提案する。
論文参考訳（メタデータ） (2024-01-09T04:19:16Z)
Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文参考訳（メタデータ） (2023-09-19T19:30:56Z)
LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。 LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文参考訳（メタデータ） (2023-05-17T15:53:31Z)
Cooperative Multi-Agent Reinforcement Learning: Asynchronous Communication and Linear Function Approximation [77.09836892653176]
マルコフ決定過程の設定におけるマルチエージェント強化学習について検討した。本稿では非同期通信が可能な値に基づく証明可能な効率的なアルゴリズムを提案する。我々は、コラボレーションによってパフォーマンスを改善するために、最小の$Omega(dM)$通信の複雑さが必要であることを示す。
論文参考訳（メタデータ） (2023-05-10T20:29:29Z)
Augmented Language Models: a Survey [55.965967655575454]
この調査は、言語モデル(LM)が推論スキルとツールの使用能力で強化されているかのレビューを行う。私たちはこれらをAugmented Language Models (ALMs)と呼ぶ。トークンの目的の欠如により、ALMは標準的な自然言語タスクを実行しながら、推論、ツールの使用、さらには行動を学ぶことができる。
論文参考訳（メタデータ） (2023-02-15T18:25:52Z)
Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文参考訳（メタデータ） (2020-11-02T10:57:53Z)
FILTER: An Enhanced Fusion Method for Cross-lingual Language Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文参考訳（メタデータ） (2020-09-10T22:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。