Fugu-MT 論文翻訳(概要): Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs

論文の概要: Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs

arxiv url: http://arxiv.org/abs/2410.15438v1
Date: Sun, 20 Oct 2024 16:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.10403
Title: Unveiling and Consulting Core Experts in Retrieval-Augmented MoE-based LLMs
Title（参考訳）: 検索型 MoE ベース LLM におけるコアエキスパートの展開とコンサルティング
Authors: Xin Zhou, Ping Nie, Yiwen Guo, Haojie Wei, Zhanqiu Zhang, Pasquale Minervini, Ruotian Ma, Tao Gui, Qi Zhang, Xuanjing Huang,
Abstract要約: RAGシステムの有効性に寄与する内部メカニズムは未解明のままである。実験の結果,複数のコアグループの専門家がRAG関連行動に主に関与していることが判明した。本稿では,専門家の活性化を通じてRAGの効率性と有効性を高めるためのいくつかの戦略を提案する。
参考スコア（独自算出の注目度）: 64.9693406713216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Retrieval-Augmented Generation (RAG) significantly improved the ability of Large Language Models (LLMs) to solve knowledge-intensive tasks. While existing research seeks to enhance RAG performance by retrieving higher-quality documents or designing RAG-specific LLMs, the internal mechanisms within LLMs that contribute to the effectiveness of RAG systems remain underexplored. In this paper, we aim to investigate these internal mechanisms within the popular Mixture-of-Expert (MoE)-based LLMs and demonstrate how to improve RAG by examining expert activations in these LLMs. Our controlled experiments reveal that several core groups of experts are primarily responsible for RAG-related behaviors. The activation of these core experts can signify the model's inclination towards external/internal knowledge and adjust its behavior. For instance, we identify core experts that can (1) indicate the sufficiency of the model's internal knowledge, (2) assess the quality of retrieved documents, and (3) enhance the model's ability to utilize context. Based on these findings, we propose several strategies to enhance RAG's efficiency and effectiveness through expert activation. Experimental results across various datasets and MoE-based LLMs show the effectiveness of our method.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) の知識集約的なタスクを解く能力を大幅に改善した。既存の研究は、高品質な文書を検索したり、RAG固有のLCMを設計したりすることでRAGの性能向上を図っているが、RAGシステムの有効性に寄与する内部メカニズムは未検討のままである。本稿では,Mixture-of-Expert (MoE) ベースの LLM の内部機構について検討し,これらの LLM のエキスパートアクティベーションを検証してRAG を改善する方法について述べる。制御実験の結果,複数の専門家のコアグループがRAG関連行動に主に関与していることが判明した。これらのコアエキスパートの活性化は、モデルの外的/内的知識への傾きを示し、その振る舞いを調整することができる。例えば,(1)モデルの内部知識が十分であることを示すコアエキスパートを特定し,(2)検索した文書の品質を評価するとともに,(3)モデルがコンテキストを活用できる能力を高める。これらの知見に基づき,専門家の活性化を通じてRAGの効率と有効性を高めるためのいくつかの戦略を提案する。各種データセットおよびMoEに基づくLCMを用いた実験結果から,本手法の有効性が示された。

関連論文リスト

Unveiling Knowledge Utilization Mechanisms in LLM-based Retrieval-Augmented Generation [77.10390725623125]
検索強化世代(RAG)は知識範囲の拡大に広く利用されている。 RAGは、オープンドメインの質問応答のような知識集約的なタスクを約束しているので、複雑なタスクやインテリジェントアシスタントへの幅広い応用は、その実用性をさらに進歩させてきた。本稿では、RAGが内部(パラメトリック)知識と外部(検索)知識を統合する本質的なメカニズムを体系的に検討する。
論文参考訳（メタデータ） (2025-05-17T13:13:13Z)
Review of Case-Based Reasoning for LLM Agents: Theoretical Foundations, Architectural Components, and Cognitive Integration [0.0]
ケースベース推論(CBR)は、過去の経験を参照することによって、新しい問題を解決する戦略である。本稿では、過去の経験を参照して新しい問題を解決する戦略であるケースベース推論(CBR)を大規模言語モデルに組み込む方法について考察する。
論文参考訳（メタデータ） (2025-04-09T14:51:02Z)
ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [54.787341008881036]
Reinforced Meta-thinking Agents(ReMA)は,MARL(Multi-Agent Reinforcement Learning)を利用したメタ思考行動の抽出手法である。 ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。実験の結果、ReMAは複雑な推論タスクにおいて単一エージェントRLベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-03-12T16:05:31Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文参考訳（メタデータ） (2025-02-04T17:26:58Z)
Towards Knowledge Checking in Retrieval-augmented Generation: A Representation Perspective [48.40768048080928]
Retrieval-Augmented Generation (RAG) システムは,Large Language Models (LLM) の性能向上を約束している。本研究の目的は,RAGシステムにおける知識チェックに関する体系的研究を提供することである。
論文参考訳（メタデータ） (2024-11-21T20:39:13Z)
LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文参考訳（メタデータ） (2024-10-28T08:32:09Z)
Understanding Ranking LLMs: A Mechanistic Analysis for Information Retrieval [20.353393773305672]
我々は、LLMのランク付けにおけるニューロンの活性化を調べるために、探索に基づく分析を用いる。本研究は,語彙信号,文書構造,問合せ文書間相互作用,複雑な意味表現など,幅広い機能カテゴリにまたがる。我々の発見は、より透明で信頼性の高い検索システムを開発するための重要な洞察を提供する。
論文参考訳（メタデータ） (2024-10-24T08:20:10Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。 LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文参考訳（メタデータ） (2024-10-03T17:36:33Z)
RAG-Modulo: Solving Sequential Tasks using Experience, Critics, and Language Models [5.0741409008225755]
大規模言語モデル(LLM)は、ロボットの課題を解決するための有望なツールとして登場した。既存のLSMベースのエージェントは、過去の相互作用を維持および学習する能力に欠ける。 RAG-Modulo は,過去のインタラクションを記憶した LLM ベースのエージェントを強化し,エージェントの判断を評価するための批判を取り入れたフレームワークである。
論文参考訳（メタデータ） (2024-09-18T20:03:32Z)
ActiveRAG: Autonomously Knowledge Assimilation and Accommodation through Retrieval-Augmented Agents [49.30553350788524]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)が外部知識を活用することを可能にする。既存のRAGモデルは、LLMを受動的情報受信者として扱うことが多い。人間の学習行動を模倣するマルチエージェントフレームワークであるActiveRAGを紹介する。
論文参考訳（メタデータ） (2024-02-21T06:04:53Z)
Exploring the Cognitive Knowledge Structure of Large Language Models: An Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文参考訳（メタデータ） (2023-10-12T09:55:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。