Fugu-MT 論文翻訳(概要): Mixture of In-Context Experts Enhance LLMs' Long Context Awareness

論文の概要: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness

arxiv url: http://arxiv.org/abs/2406.19598v1
Date: Fri, 28 Jun 2024 01:46:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-01 18:10:10.126810
Title: Mixture of In-Context Experts Enhance LLMs' Long Context Awareness
Title（参考訳）: LLMの長期意識を高める文脈エキスパートの混在
Authors: Hongzhan Lin, Ang Lv, Yuhan Chen, Chen Zhu, Yang Song, Hengshu Zhu, Rui Yan,
Abstract要約: 大規模言語モデル(LLM)は、異なる文脈の位置に対する不均一な認識を示す。本稿では,この課題に対処するため,"Mixture of In-Context Experts' (MoICE)"という新しい手法を提案する。 MoICEには2つの重要なコンポーネントがある: LLM内の各アテンションヘッドに統合されたルータと、軽量なルータのみのトレーニング最適化戦略である。
参考スコア（独自算出の注目度）: 51.65245442281049
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many studies have revealed that large language models (LLMs) exhibit uneven awareness of different contextual positions.Their limited context awareness can lead to overlooking critical information and subsequent task failures. While several approaches have been proposed to enhance LLMs' context awareness, achieving both effectiveness and efficiency remains challenging.In this paper, for LLMs utilizing RoPE as position embeddings, we introduce a novel method called ``Mixture of In-Context Experts'' (MoICE) to address this challenge. MoICE comprises two key components: a router integrated into each attention head within LLMs and a lightweight router-only training optimization strategy: (1) MoICE views each RoPE angle as an `in-context' expert, demonstrated to be capable of directing the attention of a head to specific contextual positions. Consequently, each attention head flexibly processes tokens using multiple RoPE angles dynamically selected by the router to attend to the needed positions. This approach mitigates the risk of overlooking essential contextual information. (2) The router-only training strategy entails freezing LLM parameters and exclusively updating routers for only a few steps. When applied to open-source LLMs including Llama and Mistral, MoICE surpasses prior methods across multiple tasks on long context understanding and generation, all while maintaining commendable inference efficiency.
Abstract（参考訳）: 多くの研究で、大きな言語モデル(LLM)が異なる文脈的位置に対する不均一な認識を示すことが明らかになっている。 LLMの文脈認識を高めるためにいくつかのアプローチが提案されているが、有効性と効率性の両立は依然として困難であり、本論文では、RoPEを位置埋め込みとして活用するLLMに対して、この課題に対処するために「文脈エキスパートのミクチャー(MoICE)」と呼ばれる新しい手法を導入する。 MoICEは、LLM内の各アテンションヘッドに統合されたルータと、軽量ルータのみのトレーニング最適化戦略の2つの重要なコンポーネントで構成されている。これにより、各アテンションヘッドは、ルータによって動的に選択された複数のRoPEアングルを使用してトークンを柔軟に処理し、必要な位置に対応する。このアプローチは、本質的な文脈情報を見渡すリスクを軽減します。 2) ルータのみのトレーニング戦略では, LLMパラメータの凍結と, ルータのみを数ステップで更新する。 Llama や Mistral などのオープンソース LLM に適用すると、MoICE は長いコンテキスト理解と生成に関する複数のタスクにまたがる従来の手法を超越する。

関連論文リスト

Advancing Compositional LLM Reasoning with Structured Task Relations in Interactive Multimodal Communications [42.945657927971]
本稿では,無線ネットワーク上での単一合成LLMを用いて,多様なIMAを実現する新しいパラダイムを提案する。最初の課題に取り組むために、我々はILMを案内する新しい方法であるContextLoRAを提案し、IMA間のリッチな構造化コンテキストを学習する。 3つのベンチマークの実験は、提案されたContextLoRAとContextGearの優位性を示している。
論文参考訳（メタデータ） (2025-07-28T09:33:12Z)
Universal Model Routing for Efficient LLM Inference [72.65083061619752]
我々は,これまで観測されていなかった新しいLLMがテスト時に利用可能となる動的ルーティングの問題を考察する。本稿では,各LSMを特徴ベクトルとして表現する手法を提案する。これらの戦略が理論的に最適なルーティングルールの推定であり、エラーを定量化するための過剰なリスクを提供する。
論文参考訳（メタデータ） (2025-02-12T20:30:28Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Perspective Transition of Large Language Models for Solving Subjective Tasks [18.322631948136973]
パースペクティブ・トランジション(RPT)による推論(Reasoning through Perspective transition)は、LLMが直接、役割、第三者の視点を動的に選択できる、コンテキスト内学習に基づく手法である。提案手法は,チェーン・オブ・シークレット・プロンプトやエキスパート・プロンプトといった,単一の固定視点に基づく手法よりも優れている。
論文参考訳（メタデータ） (2025-01-16T03:30:47Z)
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search [37.16633337724158]
DOTS は LLM が最適推論軌道探索によって動的に推論できるアプローチである。提案手法は静的推論手法とバニラ命令チューニング手法より一貫して優れている。
論文参考訳（メタデータ） (2024-10-04T18:58:09Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。 MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。総合的なベンチマークによりMPPの有効性を評価する。
論文参考訳（メタデータ） (2024-06-17T16:14:11Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [60.17448025069594]
マルチモーダルなアイテム・ツー・イテムレコメンデーションにおけるマルチモーダル表現を強化するための大規模言語モデルの可能性について検討する。 1つの実現可能な方法は、表現タスクのためにMLLM(Multimodal Large Language Models)を転送することである。マルチモーダル表現に特化して設計された新しいトレーニングフレームワークNoteLLM-2を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文参考訳（メタデータ） (2024-01-14T16:17:07Z)
LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文参考訳（メタデータ） (2023-11-30T03:59:31Z)
Stance Detection with Collaborative Role-Infused LLM-Based Agents [39.75103353173015]
スタンス検出は、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。しかし、姿勢検出には、著者の暗黙の視点を推測する高度な推論が必要である。 LLMを異なる役割に指定した3段階のフレームワークを設計する。複数のデータセットにまたがって最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-10-16T14:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。