論文の概要: Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models
- arxiv url: http://arxiv.org/abs/2603.00846v1
- Date: Sun, 01 Mar 2026 00:16:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.383485
- Title: Tiny-Critic RAG: Empowering Agentic Fallback with Parameter-Efficient Small Language Models
- Title(参考訳): Tiny-Critic RAG:パラメータ効率の良い小言語モデルによるエージェントフォールバックの強化
- Authors: Yichao Wu, Penghao Liang, Yafei Xiang, Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan,
- Abstract要約: Retrieval-Augmented Generations Grounds Large Language Models (LLMs) は、事実の幻覚を緩和する。
低ランク適応(LoRA)を用いたパラメータ効率小言語モデル(SLM)Tiny-Critic RAGを提案する。
Tiny-Critic RAGはGPT-4o-miniに匹敵するルーティング精度を達成し、レイテンシを桁違いに低減する。
- 参考スコア(独自算出の注目度): 7.704706624419061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) grounds Large Language Models (LLMs) to mitigate factual hallucinations. Recent paradigms shift from static pipelines to Modular and Agentic RAG frameworks, granting models autonomy for multi-hop reasoning or self-correction. However, current reflective RAG heavily relies on massive LLMs as universal evaluators. In high-throughput systems, executing complete forward passes for billion-parameter models merely for binary routing introduces severe computational redundancy. Furthermore, in autonomous agent scenarios, inaccurate retrieval causes models to expend excessive tokens on spurious reasoning and redundant tool calls, inflating Time-to-First-Token (TTFT) and costs. We propose Tiny-Critic RAG, decoupling evaluation by deploying a parameter-efficient Small Language Model (SLM) via Low-Rank Adaptation (LoRA). Acting as a deterministic gatekeeper, Tiny-Critic employs constrained decoding and non-thinking inference modes for ultra-low latency binary routing. Evaluations on noise-injected datasets demonstrate Tiny-Critic RAG achieves routing accuracy comparable to GPT-4o-mini while reducing latency by an order of magnitude, establishing a highly cost-effective paradigm for agent deployment.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、事実の幻覚を軽減するために、Large Language Models (LLM) を基盤としている。
最近のパラダイムは、静的パイプラインからモジュラーおよびエージェントRAGフレームワークに移行し、マルチホップ推論や自己補正のためのモデル自律性を提供する。
しかし、現在のリフレクティブRAGは、多量のLCMを普遍的評価器として大きく依存している。
高スループットシステムでは、バイナリルーティングのためだけに10億パラメータモデルに対して完全なフォワードパスを実行すると、厳しい計算冗長性が発生する。
さらに、自律エージェントのシナリオでは、不正確な検索により、モデルが急激な推論と冗長なツールコールに対して過剰なトークンを出力し、TTFT(Time-to-First-Token)とコストを膨らませる。
パラメータ効率のよい小言語モデル(SLM)をLo-Rank Adaptation (LoRA) を介して展開することにより,Tiny-Critic RAGを提案する。
Tiny-Criticは決定論的ゲートキーパーとして機能し、超低レイテンシバイナリルーティングのために制約付きデコードと非思考推論モードを採用している。
ノイズ注入データセットの評価では、Tiny-Critic RAGはGPT-4o-miniに匹敵するルーティング精度を達成しつつ、レイテンシを桁違いに低減し、エージェントの配置に非常にコスト効率の良いパラダイムを確立する。
関連論文リスト
- Guided Verifier: Collaborative Multimodal Reasoning via Dynamic Process Supervision [11.159231524113764]
マルチモーダル大規模言語モデル(MLLM)の複雑な推論能力を高めるための重要なメカニズムとして強化学習(RL)が登場した。
本稿では,これらの構造的制約に対処する textbfGuided Verifier フレームワークを提案する。
我々は,マルチモーダル幻覚をターゲットとした特殊なデータ合成パイプラインを開発し,プロセスレベルの負の textbfCoRe データセットとtextbfCorrect-guide textbfReasoning トラジェクトリを構築し,ガイド付き検証器を訓練する。
論文 参考訳(メタデータ) (2026-02-04T07:38:42Z) - Rethinking LLM-as-a-Judge: Representation-as-a-Judge with Small Language Models via Semantic Capacity Asymmetry [41.26991813225211]
曲面生成の代わりに内部表現を活用することにより,より小さなモデルで効率的な評価を行うことができるかどうかを検討する。
本稿では,セマンティック・キャパシティ非対称性仮説を提案する。
我々は、このパラダイムを、小さなモデル表現からアスペクトレベルの評価スコアを予測する探索ベースのフレームワークであるINSPECTORを通じてインスタンス化する。
論文 参考訳(メタデータ) (2026-01-30T05:34:24Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - TinyLLM: Evaluation and Optimization of Small Language Models for Agentic Tasks on Edge Devices [0.0]
本稿では,エージェントタスク(機能/ツール/API呼び出し)における小言語モデル(SLM)の有効性について検討する。
本稿では、教師付き微調整(SFT)、パラメータ効率の高い微調整(PEFT)、強化学習(RL)、ハイブリッド手法を含むパラメータ駆動最適化戦略について述べる。
その結果,中規模モデル(1-3Bパラメータ)がウルトラコンパクトモデル(1Bパラメータ)を大幅に上回るモデルスケール間での精度差が明らかとなった。
この研究は、エッジデバイス上で、小さな言語モデルが正確で効率的で安定したエージェントAIを提供できるようにするためのハイブリッド最適化戦略の重要性を強調した。
論文 参考訳(メタデータ) (2025-11-27T06:09:54Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Self-Route: Automatic Mode Switching via Capability Estimation for Efficient Reasoning [36.470695895695044]
Self-Routeは、一般的な推論モードと推論モードを自動的に選択する動的推論フレームワークである。
トークン消費量を30~55%削減しながら,自己ルートが推論モデルに匹敵する精度を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-27T03:18:31Z) - Token-Efficient RL for LLM Reasoning [0.02488650627593658]
本稿では,大規模言語モデル (LLM) において,厳密なメモリと計算限界下での推論に適した強化学習戦略を提案する。
ベースラインサブトラクションを用いた早期ポリシー勾配法に基づいて,出力トークンの小さな情報サブセット上で動作する批判のない手法を設計する。
提案手法は,SVAMPベンチマークの精度を46%から70%以上に向上し,マルチ桁乗算において高い性能を示した。
論文 参考訳(メタデータ) (2025-04-29T14:58:43Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Edge Federated Learning Via Unit-Modulus Over-The-Air Computation
(Extended Version) [64.76619508293966]
本稿では,効率の良いエッジフェデレーション学習を実現するために,UM-AirCompフレームワークを提案する。
ローカルモデルパラメータを同時にアップロードし、アナログビームフォーミングを通じてグローバルモデルパラメータを更新する。
車両間自動運転シミュレーションプラットフォームにおけるUM-AirCompの実装を実演する。
論文 参考訳(メタデータ) (2021-01-28T15:10:22Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。