論文の概要: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
- arxiv url: http://arxiv.org/abs/2406.19598v2
- Date: Thu, 17 Oct 2024 03:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:29.793073
- Title: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
- Title(参考訳): LLMの長期意識を高める文脈エキスパートの混在
- Authors: Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan,
- Abstract要約: 大規模言語モデル(LLM)は、異なる文脈の位置に対する不均一な認識を示す。
本稿では,この課題に対処するため,"Mixture of In-Context Experts" (MoICE) という新しい手法を提案する。
MoICEには2つの重要なコンポーネントがある: LLM内の各アテンションヘッドに統合されたルータと、軽量なルータのみのトレーニング最適化戦略である。
- 参考スコア(独自算出の注目度): 51.65245442281049
- License:
- Abstract: Many studies have revealed that large language models (LLMs) exhibit uneven awareness of different contextual positions. Their limited context awareness can lead to overlooking critical information and subsequent task failures. While several approaches have been proposed to enhance LLMs' context awareness, achieving both effectiveness and efficiency remains challenging. In this paper, for LLMs utilizing RoPE as position embeddings, we introduce a novel method called "Mixture of In-Context Experts" (MoICE) to address this challenge. MoICE comprises two key components: a router integrated into each attention head within LLMs and a lightweight router-only training optimization strategy: (1) MoICE views each RoPE angle as an `in-context' expert, demonstrated to be capable of directing the attention of a head to specific contextual positions. Consequently, each attention head flexibly processes tokens using multiple RoPE angles dynamically selected by the router to attend to the needed positions. This approach mitigates the risk of overlooking essential contextual information. (2) The router-only training strategy entails freezing LLM parameters and exclusively updating routers for only a few steps. When applied to open-source LLMs including Llama and Mistral, MoICE surpasses prior methods across multiple tasks on long context understanding and generation, all while maintaining commendable inference efficiency.
- Abstract(参考訳): 多くの研究で、大きな言語モデル(LLM)が異なる文脈的位置に対する不均一な認識を示すことが明らかになっている。
限られたコンテキスト認識は、重要な情報やその後のタスク失敗を見落としてしまう可能性がある。
LLMの文脈認識を高めるためにいくつかのアプローチが提案されているが、有効性と効率性の両立は依然として困難である。
本稿では,位置埋め込みとして RoPE を利用する LLM に対して,この課題に対処するために "Mixture of In-Context Experts" (MoICE) という新しい手法を提案する。
MoICEは、LLM内の各アテンションヘッドに統合されたルータと、軽量ルータのみのトレーニング最適化戦略の2つの重要なコンポーネントで構成されている。
これにより、各アテンションヘッドは、ルータによって動的に選択された複数のRoPEアングルを使用してトークンを柔軟に処理し、必要な位置に対応する。
このアプローチは、本質的な文脈情報を見渡すリスクを軽減します。
2) ルータのみのトレーニング戦略では, LLMパラメータの凍結と, ルータのみを数ステップで更新する。
Llama や Mistral などのオープンソース LLM に適用すると、MoICE は長いコンテキスト理解と生成に関する複数のタスクにまたがる従来の手法を超越する。
関連論文リスト
- DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。
提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文 参考訳(メタデータ) (2024-10-04T18:58:09Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Stance Detection with Collaborative Role-Infused LLM-Based Agents [39.75103353173015]
スタンス検出は、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。
しかし、姿勢検出には、著者の暗黙の視点を推測する高度な推論が必要である。
LLMを異なる役割に指定した3段階のフレームワークを設計する。
複数のデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-16T14:46:52Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。