論文の概要: An Empirical Study of Multi-Agent RAG for Real-World University Admissions Counseling
- arxiv url: http://arxiv.org/abs/2507.11272v1
- Date: Tue, 15 Jul 2025 12:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.112772
- Title: An Empirical Study of Multi-Agent RAG for Real-World University Admissions Counseling
- Title(参考訳): 実世界大学入試におけるマルチエージェントRAGの実証的研究
- Authors: Anh Nguyen-Duc, Chien Vu Manh, Bao Anh Tran, Viet Phuong Ngo, Luan Le Chi, Anh Quang Nguyen,
- Abstract要約: 本稿では,ベトナムにおける高等教育のカウンセリングのための対話型AIプラットフォームの現実的な展開について述べる。
MarAUSは6000以上の実際のユーザインタラクションを処理し、6つのカテゴリのクエリにまたがった。
その結果, LLMのみのベースラインよりも大幅に改善した。
- 参考スコア(独自算出の注目度): 1.1749291708577076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents MARAUS (Multi-Agent and Retrieval-Augmented University Admission System), a real-world deployment of a conversational AI platform for higher education admissions counseling in Vietnam. While large language models (LLMs) offer potential for automating advisory tasks, most existing solutions remain limited to prototypes or synthetic benchmarks. MARAUS addresses this gap by combining hybrid retrieval, multi-agent orchestration, and LLM-based generation into a system tailored for real-world university admissions. In collaboration with the University of Transport Technology (UTT) in Hanoi, we conducted a two-phase study involving technical development and real-world evaluation. MARAUS processed over 6,000 actual user interactions, spanning six categories of queries. Results show substantial improvements over LLM-only baselines: on average 92 percent accuracy, hallucination rates reduced from 15 precent to 1.45 percent, and average response times below 4 seconds. The system operated cost-effectively, with a two-week deployment cost of 11.58 USD using GPT-4o mini. This work provides actionable insights for the deployment of agentic RAG systems in low-resource educational settings.
- Abstract(参考訳): 本稿では,ベトナムにおける高等教育指導のための対話型AIプラットフォームであるMARAUS(Multi-Agent and Retrieval-Augmented University Admission System)について述べる。
大きな言語モデル(LLM)は助言タスクの自動化の可能性を秘めているが、既存のソリューションのほとんどはプロトタイプや合成ベンチマークに限られている。
MARAUSは、ハイブリッド検索、マルチエージェントオーケストレーション、LLMベースの生成を、現実世界の大学入学に適したシステムに組み合わせることで、このギャップに対処する。
ハノイの交通技術大学(UTT)と共同で,技術開発と実世界評価に関する2段階の研究を行った。
MARAUSは6000以上の実際のユーザインタラクションを処理し、6つのカテゴリのクエリにまたがった。
その結果、LLMのみのベースラインよりも大幅に改善され、平均92%の精度で幻覚率が15から1.45%に減少し、平均応答時間が4秒未満となった。
このシステムは費用対効果が高く、GPT-4o miniを使用した2週間の配備コストは11.58米ドルであった。
この研究は、低リソースの教育環境におけるエージェントRAGシステムの展開に関する実用的な洞察を提供する。
関連論文リスト
- AI agents may be worth the hype but not the resources (yet): An initial exploration of machine translation quality and costs in three language pairs in the legal and news domains [0.0]
大規模言語モデル(LLM)とマルチエージェントオーケストレーションは、機械翻訳(MT)における次の飛躍と称される。
本稿では,Google Translate (強力なNTTベースライン), GPT-4o (汎用LDM), o1-preview (推論強化LDM), GPT-4o-powered agenticの5つのパラダイムをベンチマークする。
我々は多次元でコストを意識した評価プロトコルを提唱し、バランスを崩す可能性のある研究の方向性を強調している。
論文 参考訳(メタデータ) (2025-05-02T20:02:13Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - Enhancing LLMs for Power System Simulations: A Feedback-driven Multi-agent Framework [1.4255659581428337]
本稿では,電力系統のシミュレーションを管理するためのフィードバック駆動型マルチエージェントフレームワークを提案する。
改良された検索拡張生成モジュール(RAG)、改良された推論モジュール、エラーフィードバック機構を備えた動的環境作用モジュールの3つのモジュールが提案されている。
ChatGPT 4o、o1-preview、微調整されたGPT-4oは、いずれも複雑なタスクで30%未満の成功率を達成した。
論文 参考訳(メタデータ) (2024-11-21T19:01:07Z) - BudgetMLAgent: A Cost-Effective LLM Multi-Agent system for Automating Machine Learning Tasks [13.292422686491753]
大規模言語モデル(LLM)は、コードスニペットの生成を含む多様なアプリケーションで優れているが、複雑な機械学習(ML)タスクのためのコード生成に苦戦することが多い。
調査の結果,Gemini-Pro,Mixtral,CodeLlamaなどの低コストモデルは単一エージェント環境ではGPT-4よりもはるかに低性能であることがわかった。
本稿では,プロファイリング,過去の観測の効率的な検索,LSMカスケード,およびQ&Aコールによる専門家の組合せを利用したLLM Multi-Agent ベースのシステムを提案する。
論文 参考訳(メタデータ) (2024-11-12T00:57:30Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - ExACT: Teaching AI Agents to Explore with Reflective-MCTS and Exploratory Learning [78.42927884000673]
ExACTは、エージェントアプリケーションのためのo1のようなモデルを構築するために、テスト時間検索と自己学習を組み合わせるアプローチである。
リフレクティブモンテカルロ木探索(Reflective Monte Carlo Tree Search, R-MCTS)は、AIエージェントがその場で意思決定空間を探索する能力を高めるために設計された新しいテストタイムアルゴリズムである。
次に,探索学習(Exploratory Learning)という,外部探索アルゴリズムに頼らずに,エージェントに推論時間での探索を教える新しい学習戦略を紹介する。
論文 参考訳(メタデータ) (2024-10-02T21:42:35Z) - Rethinking Generative Large Language Model Evaluation for Semantic
Comprehension [27.21438605541497]
本稿では,複数の選択質問応答(MCQA)の評価方法について再検討する。
RWQ-Elo レーティングシステムを導入し,24大言語モデル (LLM) を2プレイヤーの競争形式で動作させ,GPT-4 を審査員とする。
このシステムは実世界の利用を反映するように設計されており、そのためにRWQ(Real-world Question')と呼ばれる新しいベンチマークをコンパイルした。
我々の分析は、我々のRWQ-Eloシステムの安定性、新しいモデル登録の可能性、そしてその可能性を明らかにする。
論文 参考訳(メタデータ) (2024-03-12T17:59:48Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Multi-Agent Automated Machine Learning [54.14038920246645]
自動機械学習(AutoML)におけるモジュールの共同最適化のためのマルチエージェント自動機械学習(MA2ML)を提案する。
MA2MLはモジュール間の協力を強化するために各エージェントにクレジットを明示的に割り当て、検索効率を向上させるために政治外の学習を取り入れている。
実験により、MA2MLは計算コストの制約の下でImageNet上で最先端のトップ1の精度が得られることが示された。
論文 参考訳(メタデータ) (2022-10-17T13:32:59Z) - From Multi-agent to Multi-robot: A Scalable Training and Evaluation
Platform for Multi-robot Reinforcement Learning [12.74238738538799]
マルチエージェント強化学習(MARL)は、過去数十年間、学術や産業から広く注目を集めてきた。
これらの手法が実際のシナリオ、特にマルチロボットシステムでどのように機能するかは未だ分かっていない。
本稿では,マルチロボット強化学習(MRRL)のためのスケーラブルなエミュレーションプラットフォームSMARTを提案する。
論文 参考訳(メタデータ) (2022-06-20T06:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。