論文の概要: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
- arxiv url: http://arxiv.org/abs/2406.19598v1
- Date: Fri, 28 Jun 2024 01:46:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 18:10:10.126810
- Title: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
- Title(参考訳): LLMの長期意識を高める文脈エキスパートの混在
- Authors: Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan,
- Abstract要約: 大規模言語モデル(LLM)は、異なる文脈の位置に対する不均一な認識を示す。
本稿では,この課題に対処するため,"Mixture of In-Context Experts' (MoICE)"という新しい手法を提案する。
MoICEには2つの重要なコンポーネントがある: LLM内の各アテンションヘッドに統合されたルータと、軽量なルータのみのトレーニング最適化戦略である。
- 参考スコア(独自算出の注目度): 51.65245442281049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have revealed that large language models (LLMs) exhibit uneven awareness of different contextual positions.Their limited context awareness can lead to overlooking critical information and subsequent task failures. While several approaches have been proposed to enhance LLMs' context awareness, achieving both effectiveness and efficiency remains challenging.In this paper, for LLMs utilizing RoPE as position embeddings, we introduce a novel method called ``Mixture of In-Context Experts'' (MoICE) to address this challenge. MoICE comprises two key components: a router integrated into each attention head within LLMs and a lightweight router-only training optimization strategy: (1) MoICE views each RoPE angle as an `in-context' expert, demonstrated to be capable of directing the attention of a head to specific contextual positions. Consequently, each attention head flexibly processes tokens using multiple RoPE angles dynamically selected by the router to attend to the needed positions. This approach mitigates the risk of overlooking essential contextual information. (2) The router-only training strategy entails freezing LLM parameters and exclusively updating routers for only a few steps. When applied to open-source LLMs including Llama and Mistral, MoICE surpasses prior methods across multiple tasks on long context understanding and generation, all while maintaining commendable inference efficiency.
- Abstract(参考訳): 多くの研究で、大きな言語モデル(LLM)が異なる文脈的位置に対する不均一な認識を示すことが明らかになっている。
LLMの文脈認識を高めるためにいくつかのアプローチが提案されているが、有効性と効率性の両立は依然として困難であり、本論文では、RoPEを位置埋め込みとして活用するLLMに対して、この課題に対処するために「文脈エキスパートのミクチャー(MoICE)」と呼ばれる新しい手法を導入する。
MoICEは、LLM内の各アテンションヘッドに統合されたルータと、軽量ルータのみのトレーニング最適化戦略の2つの重要なコンポーネントで構成されている。
これにより、各アテンションヘッドは、ルータによって動的に選択された複数のRoPEアングルを使用してトークンを柔軟に処理し、必要な位置に対応する。
このアプローチは、本質的な文脈情報を見渡すリスクを軽減します。
2) ルータのみのトレーニング戦略では, LLMパラメータの凍結と, ルータのみを数ステップで更新する。
Llama や Mistral などのオープンソース LLM に適用すると、MoICE は長いコンテキスト理解と生成に関する複数のタスクにまたがる従来の手法を超越する。
関連論文リスト
- Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。
本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。
これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Perspective Transition of Large Language Models for Solving Subjective Tasks [18.322631948136973]
パースペクティブ・トランジション(RPT)による推論(Reasoning through Perspective transition)は、LLMが直接、役割、第三者の視点を動的に選択できる、コンテキスト内学習に基づく手法である。
提案手法は,チェーン・オブ・シークレット・プロンプトやエキスパート・プロンプトといった,単一の固定視点に基づく手法よりも優れている。
論文 参考訳(メタデータ) (2025-01-16T03:30:47Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Stance Detection with Collaborative Role-Infused LLM-Based Agents [39.75103353173015]
スタンス検出は、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。
しかし、姿勢検出には、著者の暗黙の視点を推測する高度な推論が必要である。
LLMを異なる役割に指定した3段階のフレームワークを設計する。
複数のデータセットにまたがって最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-10-16T14:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。