Fugu-MT 論文翻訳(概要): Mixture of In-Context Experts Enhance LLMs' Long Context Awareness

論文の概要: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness

arxiv url: http://arxiv.org/abs/2406.19598v2
Date: Thu, 17 Oct 2024 03:53:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.224949
Title: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
Title（参考訳）: LLMの長期意識を高める文脈エキスパートの混在
Authors: Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan,
Abstract要約: 大規模言語モデル(LLM)は、異なる文脈の位置に対する不均一な認識を示す。本稿では,この課題に対処するため,"Mixture of In-Context Experts" (MoICE) という新しい手法を提案する。 MoICEには2つの重要なコンポーネントがある: LLM内の各アテンションヘッドに統合されたルータと、軽量なルータのみのトレーニング最適化戦略である。
参考スコア（独自算出の注目度）: 51.65245442281049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many studies have revealed that large language models (LLMs) exhibit uneven awareness of different contextual positions. Their limited context awareness can lead to overlooking critical information and subsequent task failures. While several approaches have been proposed to enhance LLMs' context awareness, achieving both effectiveness and efficiency remains challenging. In this paper, for LLMs utilizing RoPE as position embeddings, we introduce a novel method called "Mixture of In-Context Experts" (MoICE) to address this challenge. MoICE comprises two key components: a router integrated into each attention head within LLMs and a lightweight router-only training optimization strategy: (1) MoICE views each RoPE angle as an `in-context' expert, demonstrated to be capable of directing the attention of a head to specific contextual positions. Consequently, each attention head flexibly processes tokens using multiple RoPE angles dynamically selected by the router to attend to the needed positions. This approach mitigates the risk of overlooking essential contextual information. (2) The router-only training strategy entails freezing LLM parameters and exclusively updating routers for only a few steps. When applied to open-source LLMs including Llama and Mistral, MoICE surpasses prior methods across multiple tasks on long context understanding and generation, all while maintaining commendable inference efficiency.
Abstract（参考訳）: 多くの研究で、大きな言語モデル(LLM)が異なる文脈的位置に対する不均一な認識を示すことが明らかになっている。限られたコンテキスト認識は、重要な情報やその後のタスク失敗を見落としてしまう可能性がある。 LLMの文脈認識を高めるためにいくつかのアプローチが提案されているが、有効性と効率性の両立は依然として困難である。本稿では,位置埋め込みとして RoPE を利用する LLM に対して,この課題に対処するために "Mixture of In-Context Experts" (MoICE) という新しい手法を提案する。 MoICEは、LLM内の各アテンションヘッドに統合されたルータと、軽量ルータのみのトレーニング最適化戦略の2つの重要なコンポーネントで構成されている。これにより、各アテンションヘッドは、ルータによって動的に選択された複数のRoPEアングルを使用してトークンを柔軟に処理し、必要な位置に対応する。このアプローチは、本質的な文脈情報を見渡すリスクを軽減します。 2) ルータのみのトレーニング戦略では, LLMパラメータの凍結と, ルータのみを数ステップで更新する。 Llama や Mistral などのオープンソース LLM に適用すると、MoICE は長いコンテキスト理解と生成に関する複数のタスクにまたがる従来の手法を超越する。

関連論文リスト

Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
Perspective Transition of Large Language Models for Solving Subjective Tasks [18.322631948136973]
パースペクティブ・トランジション(RPT)による推論(Reasoning through Perspective transition)は、LLMが直接、役割、第三者の視点を動的に選択できる、コンテキスト内学習に基づく手法である。提案手法は,チェーン・オブ・シークレット・プロンプトやエキスパート・プロンプトといった,単一の固定視点に基づく手法よりも優れている。
論文参考訳（メタデータ） (2025-01-16T03:30:47Z)
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文参考訳（メタデータ） (2024-10-04T18:58:09Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Stance Detection with Collaborative Role-Infused LLM-Based Agents [39.75103353173015]
スタンス検出は、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。しかし、姿勢検出には、著者の暗黙の視点を推測する高度な推論が必要である。 LLMを異なる役割に指定した3段階のフレームワークを設計する。複数のデータセットにまたがって最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-16T14:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。