論文の概要: MHA-RAG: Improving Efficiency, Accuracy, and Consistency by Encoding Exemplars as Soft Prompts
- arxiv url: http://arxiv.org/abs/2510.05363v1
- Date: Mon, 06 Oct 2025 20:41:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.976102
- Title: MHA-RAG: Improving Efficiency, Accuracy, and Consistency by Encoding Exemplars as Soft Prompts
- Title(参考訳): MHA-RAG:事例をソフトプロンプとしてエンコードすることで効率、正確性、一貫性を向上させる
- Authors: Abhinav Jain, Xinyu Yao, Thomas Reps, Christopher Jermaine,
- Abstract要約: トレーニングデータに制限のある新しいドメインにファンデーションモデルを適用するのは難しく、計算コストも高い。
本研究は,文章を純粋に表現することが,最も効率的,効果的,かつ安定なアプローチであるかどうかを考察する。
我々は、例題不変モデルアーキテクチャを用いて、例題をソフトプロンプトとして表現する選択肢を探究する。
- 参考スコア(独自算出の注目度): 3.631974475748162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting Foundation Models to new domains with limited training data is challenging and computationally expensive. While prior work has demonstrated the effectiveness of using domain-specific exemplars as in-context demonstrations, we investigate whether representing exemplars purely as text is the most efficient, effective, and stable approach. We explore an alternative: representing exemplars as soft prompts with an exemplar order invariant model architecture. To this end, we introduce Multi-Head Attention Retrieval-Augmented Generation (MHA-RAG), a framework with the number of attention heads serving as a simple hyperparameter to control soft prompt-generation across different tasks. Across multiple question-answering benchmarks and model scales, MHA-RAG achieves a 20-point performance gain over standard RAG, while cutting inference costs by a factor of 10X GFLOPs-delivering both higher accuracy and greater efficiency, invariant to exemplar order.
- Abstract(参考訳): トレーニングデータに制限のある新しいドメインにファンデーションモデルを適用するのは難しく、計算コストも高い。
先行研究は、ドメイン固有例をテキスト内の実演として活用することの有効性を実証してきたが、本研究では、本例をテキストとして純粋に表現することが、最も効率的で効果的で安定したアプローチであるかどうかを考察する。
我々は、例題不変モデルアーキテクチャを用いて、例題をソフトプロンプトとして表現する選択肢を探究する。
この目的のために,複数タスク間のソフトプロンプト生成を制御するための,単純なハイパーパラメータとして機能するアテンションヘッド数のフレームワークであるMHA-RAG(Multi-Head Attention Retrieval-Augmented Generation)を導入する。
複数の質問応答ベンチマークとモデルスケールで、MHA-RAGは標準RAGよりも20ポイントの性能向上を実現し、推論コストを10倍のGFLOPで削減し、精度と効率を両立させる。
関連論文リスト
- GLAD: Generalizable Tuning for Vision-Language Models [41.071911050087586]
GLAD (Generalizable LoRA tuning with RegulArized GraDient) という,よりシンプルで汎用的なフレームワークを提案する。
我々は,LoRAを適用するだけで,現在の最先端のプロンプトベースの手法に匹敵するダウンストリームタスクのパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2025-07-17T12:58:15Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Towards Transformer-Based Aligned Generation with Self-Coherence Guidance [51.42269790543461]
トランスフォーマーを用いたテキストガイド拡散モデル(TGDM)におけるアライメント向上のためのトレーニング不要アプローチを提案する。
既存のTGDMは、特に複雑なテキストプロンプトやマルチコンセプト属性バインディングの問題を扱う場合、意味的に整合した画像を生成するのに苦労することが多い。
本手法は,生成過程において,相互注意マップを直接最適化することにより,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-03-22T07:03:57Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - First Token Probability Guided RAG for Telecom Question Answering [15.854941373238226]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) にドメイン固有情報を組み込むことにおいて、明確な優位性を示している。
本稿では,通信におけるMultiple Choice Question Answering(MCQA)の課題に対処する,新しいトークン確率ガイド付きRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-11T07:47:31Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - Fine-Tuning or Fine-Failing? Debunking Performance Myths in Large Language Models [0.8399688944263842]
大きな言語モデル(LLM)は、入力クエリから人間のようなテキストを理解し、生成する能力を持つ。
本研究では、この概念を、レトリーバル拡張生成(RAG)パイプライン内のLLMの統合に拡張する。
データ抽出と文脈理解における微調整がLLMの能力に与える影響を評価する。
論文 参考訳(メタデータ) (2024-06-17T04:35:17Z) - Self-Guided Adaptation: Progressive Representation Alignment for Domain
Adaptive Object Detection [86.69077525494106]
非教師なしドメイン適応(UDA)は、オブジェクト検出モデルのドメイン間ロバスト性を改善するために前例のない成功を収めた。
既存のUDA手法は、モデル学習中の瞬間的なデータ分布を無視しており、大きなドメインシフトによって特徴表現が劣化する可能性がある。
本稿では、特徴表現の整合とドメイン間のオブジェクト検出モデルの転送を目標とする自己ガイド適応モデルを提案する。
論文 参考訳(メタデータ) (2020-03-19T13:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。