論文の概要: UKP-SQuARE v3: A Platform for Multi-Agent QA Research
- arxiv url: http://arxiv.org/abs/2303.18120v2
- Date: Wed, 17 May 2023 13:08:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-05-18 19:50:04.078363
- Title: UKP-SQuARE v3: A Platform for Multi-Agent QA Research
- Title(参考訳): UKP-SQuARE v3:マルチエージェントQA研究のためのプラットフォーム
- Authors: Haritz Puerto, Tim Baumg\"artner, Rachneet Sachdeva, Haishuo Fang, Hao
Zhang, Sewin Tariverdian, Kexin Wang, Iryna Gurevych
- Abstract要約: 我々は、質問回答(QA)研究のためのオンラインプラットフォームであるUKP-SQuAREを拡張し、マルチエージェントシステムの3つのファミリーをサポートする。
推論速度の評価実験を行い、マルチデータセットモデルと比較して性能と速度のトレードオフについて議論する。
- 参考スコア(独自算出の注目度): 48.92308487624824
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The continuous development of Question Answering (QA) datasets has drawn the
research community's attention toward multi-domain models. A popular approach
is to use multi-dataset models, which are models trained on multiple datasets
to learn their regularities and prevent overfitting to a single dataset.
However, with the proliferation of QA models in online repositories such as
GitHub or Hugging Face, an alternative is becoming viable. Recent works have
demonstrated that combining expert agents can yield large performance gains
over multi-dataset models. To ease research in multi-agent models, we extend
UKP-SQuARE, an online platform for QA research, to support three families of
multi-agent systems: i) agent selection, ii) early-fusion of agents, and iii)
late-fusion of agents. We conduct experiments to evaluate their inference speed
and discuss the performance vs. speed trade-off compared to multi-dataset
models. UKP-SQuARE is open-source and publicly available at
http://square.ukp-lab.de.
- Abstract(参考訳): 質問応答(qa)データセットの継続的な開発は、研究コミュニティのマルチドメインモデルに対する関心を引き起こした。
一般的なアプローチは、複数のデータセットでトレーニングされたモデルであるマルチデータセットモデルを使用することである。
しかし、GitHubやHugging FaceといったオンラインリポジトリでのQAモデルの普及に伴い、別の選択肢が実現しつつある。
近年の研究では、エキスパートエージェントを組み合わせることで、マルチデータセットモデルよりも大きなパフォーマンス向上が得られることが示されている。
マルチエージェントモデルの研究を容易にするため、QA研究のためのオンラインプラットフォームであるUKP-SQuAREを拡張し、マルチエージェントシステムの3つのファミリーをサポートする。
i) エージェントの選択
二 エージェントの早期融合及び
三 エージェントの後期融合
推論速度の評価実験を行い、マルチデータセットモデルと比較して性能と速度のトレードオフについて議論する。
UKP-SQuAREはオープンソースで、http://square.ukp-lab.deで公開されている。
関連論文リスト
- AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - Klear-AgentForge: Forging Agentic Intelligence through Posttraining Scaling [46.593200463657645]
我々は,Klear-Qwen3-AgentForgeという高性能エージェントモデルを学習するための,包括的で完全なオープンソースパイプラインを提案する。
合成データを用いた効率的な教師付き微調整(SFT)とマルチターン強化学習(RL)を併用し,多種多様なエージェントタスクの可能性を解き放つ。
論文 参考訳(メタデータ) (2025-11-08T09:47:27Z) - AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation [31.02336903452371]
AirQAは人工知能(AI)分野における人手による包括的な紙QAデータセットである
3つのLDMベースのエージェントにより、ExTrActorは人間の介入なしにサンプル生成および軌道収集を行うことができる。
ExTrActorは、小さなモデルのマルチターンツール使用能力を一貫して改善し、より大きなモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-21T07:24:17Z) - Chain-of-Agents: End-to-End Agent Foundation Models via Multi-Agent Distillation and Agentic RL [41.847359443133776]
CoA(Chain-of-Agents)は、大規模言語モデル(LLM)推論の新しいパラダイムであり、ネイティブなエンドツーエンドの複雑な問題解決を可能にする。
我々は, エージェント制御微調整のための多エージェント蒸留フレームワークを導入し, 最先端のマルチエージェントシステムをチェーン・オブ・エージェント・トラジェクトリに蒸留する。
次に、検証可能なエージェントタスクに対するエージェント強化学習を用いて、チェーン・オブ・エージェントの問題解決におけるモデルの能力をさらに向上する。
論文 参考訳(メタデータ) (2025-08-06T17:01:02Z) - CTTS: Collective Test-Time Scaling [11.575072390128309]
私たちは、集合的テスト時間スケーリング(CTTS)を探求する第一歩を踏み出します。
シングルモデルとマルチモデルの異なる相互作用タイプについて考えてみましょう。
我々は,マルチエージェントとマルチリワードモデルの両方を効果的に活用するCTTS-MMという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T11:19:08Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering [48.7363941445826]
本稿では,オブジェクト検出とカウントにおける基礎モデルの限界を克服するために,Multi-Agent VQAという適応型マルチエージェントシステムを提案する。
ゼロショットシナリオで予備実験結果を示し、いくつかの障害事例を強調し、今後の研究の方向性を示す。
論文 参考訳(メタデータ) (2024-03-21T18:57:25Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - UKP-SQUARE: An Online Platform for Question Answering Research [50.35348764297317]
我々は、研究者向けのオンラインQAプラットフォームであるUKP-SQUAREを紹介した。
UKP-SQUAREでは、ユーザフレンドリーなWebインターフェースと統合テストを通じて、モダンスキルの大規模なコレクションをクエリし、分析することができる。
論文 参考訳(メタデータ) (2022-03-25T15:00:24Z) - MetaQA: Combining Expert Agents for Multi-Skill Question Answering [49.35261724460689]
マルチデータセットモデルの有望な結果にもかかわらず、いくつかのドメインやQAフォーマットは特定のアーキテクチャを必要とするかもしれません。
本稿では,専門家エージェントと,質問,回答予測,回答予測信頼度スコアを考慮した,新しい,柔軟な,学習効率の高いアーキテクチャを組み合わせることを提案する。
論文 参考訳(メタデータ) (2021-12-03T14:05:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。