論文の概要: Let Models Speak Ciphers: Multiagent Debate through Embeddings
- arxiv url: http://arxiv.org/abs/2310.06272v2
- Date: Mon, 26 Feb 2024 17:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:07:51.263488
- Title: Let Models Speak Ciphers: Multiagent Debate through Embeddings
- Title(参考訳): Let Models Speakciphers: Embeddingsによるマルチエージェント討論
- Authors: Chau Pham, Boyi Liu, Yingxiang Yang, Zhengyu Chen, Tianyi Liu, Jianbo
Yuan, Bryan A. Plummer, Zhaoran Wang, Hongxia Yang
- Abstract要約: この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
- 参考スコア(独自算出の注目度): 84.20336971784495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Discussion and debate among Large Language Models (LLMs) have gained
considerable attention due to their potential to enhance the reasoning ability
of LLMs. Although natural language is an obvious choice for communication due
to LLM's language understanding capability, the token sampling step needed when
generating natural language poses a potential risk of information loss, as it
uses only one token to represent the model's belief across the entire
vocabulary. In this paper, we introduce a communication regime named CIPHER
(Communicative Inter-Model Protocol Through Embedding Representation) to
address this issue. Specifically, we remove the token sampling step from LLMs
and let them communicate their beliefs across the vocabulary through the
expectation of the raw transformer output embeddings. Remarkably, by deviating
from natural language, CIPHER offers an advantage of encoding a broader
spectrum of information without any modification to the model weights,
outperforming the state-of-the-art LLM debate methods using natural language by
0.5-5.0% across five reasoning tasks and multiple open-source LLMs of varying
sizes. This showcases the superiority and robustness of embeddings as an
alternative "language" for communication among LLMs. We anticipate that CIPHER
will inspire further exploration for the design of interactions within LLM
agent systems, offering a new direction that could significantly influence
future developments in the field.
- Abstract(参考訳): 大規模言語モデル(LLM)の議論と議論は,LLMの推論能力を高める可能性から注目されている。
自然言語は、llmの言語理解能力によるコミュニケーションの明確な選択であるが、自然言語を生成する際に必要とされるトークンサンプリングステップは、語彙全体にわたってモデルの信念を表現するために1つのトークンのみを使用するため、情報損失の潜在的なリスクをもたらす。
本稿では,この問題に対処するために,cipher(communicative inter-model protocol through embedded representation)という通信方式を提案する。
具体的には, LLMからトークンサンプリングステップを取り除き, 生のトランスフォーマー出力の埋め込みを期待することで, 語彙間の信念を伝達させる。
注目すべきは、CIPHERが自然言語から逸脱することで、モデルの重みを変更することなく幅広い情報のスペクトルを符号化する利点があり、5つの推論タスクと異なるサイズの複数のオープンソースLLMに対して、自然言語を用いた最先端のLLM議論手法を0.5-5.0%上回る。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優位性と堅牢性を示している。
我々はCIPHERがLLMエージェントシステム内でのインタラクション設計をさらに発展させ、この分野における今後の発展に大きな影響を与える可能性のある新たな方向性を提供することを期待している。
関連論文リスト
- Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。
評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。
本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-19T05:11:46Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - MindMerger: Efficient Boosting LLM Reasoning in non-English Languages [26.334092384176518]
推論能力は大規模言語モデル(LLM)にとって不可欠である
我々は,多言語モデルからLLMと外部言語理解機能を融合したMindMergerを提案する。
MindMergerは、特に低リソース言語において、すべてのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-05-27T17:41:54Z) - Beyond Natural Language: LLMs Leveraging Alternative Formats for Enhanced Reasoning and Communication [79.79948834910579]
自然言語(NL)は長年、人間の認知とコミュニケーションの主要なフォーマットであった。
本研究では,異なる文脈における非NLフォーマットの有用性を検討することで,NLのデフォルト利用に挑戦する。
論文 参考訳(メタデータ) (2024-02-28T16:07:54Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - The Quo Vadis of the Relationship between Language and Large Language
Models [3.10770247120758]
LLM(Large Language Models)は、LLMを言語科学モデルとして採用することを奨励している。
透明性に欠ける科学的モデルの導入によって引き起こされる最も重要な理論的および経験的リスクを特定します。
現在の開発段階において、LLMは言語に関する説明をほとんど提供していないと結論付けている。
論文 参考訳(メタデータ) (2023-10-17T10:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。