論文の概要: Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model
- arxiv url: http://arxiv.org/abs/2502.08820v2
- Date: Tue, 18 Feb 2025 18:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:56.494762
- Title: Can a Single Model Master Both Multi-turn Conversations and Tool Use? CoALM: A Unified Conversational Agentic Language Model
- Title(参考訳): マルチターン会話とツール使用の両立モデルマスターは可能か? : CoALM:統一会話エージェント言語モデル
- Authors: Emre Can Acikgoz, Jeremiah Greer, Akul Datta, Ze Yang, William Zeng, Oussama Elachqar, Emmanouil Koukoumidis, Dilek Hakkani-Tür, Gokhan Tur,
- Abstract要約: 対話型エージェント言語モデル(Conversational Agentic Language Model)を導入する。
CoALM-ITを用いて、上位ドメイン固有モデルを上回る3つのモデル、CoALM 8B、CoALM 70B、CoALM 405Bを訓練する。
- 参考スコア(独自算出の注目度): 8.604654904400027
- License:
- Abstract: Large Language Models (LLMs) with API-calling capabilities enabled building effective Language Agents (LA), while also revolutionizing the conventional task-oriented dialogue (TOD) paradigm. However, current approaches face a critical dilemma: TOD systems are often trained on a limited set of target APIs, requiring new data to maintain their quality when interfacing with new services, while LAs are not trained to maintain user intent over multi-turn conversations. Because both robust multi-turn management and advanced function calling are crucial for effective conversational agents, we evaluate these skills on three popular benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA), and API-Bank (LA), and our analyses reveal that specialized approaches excel in one domain but underperform in the other. To bridge this chasm, we introduce CoALM (Conversational Agentic Language Model), a unified approach that integrates both conversational and agentic capabilities. We created CoALM-IT, a carefully constructed multi-task dataset that interleave multi-turn ReAct reasoning with complex API usage. Using CoALM-IT, we train three models CoALM 8B, CoALM 70B, and CoALM 405B, which outperform top domain-specific models, including GPT-4o, across all three benchmarks.This demonstrates the feasibility of a single model approach for both TOD and LA, setting a new standard for conversational agents.
- Abstract(参考訳): API呼び出し機能を備えた大規模言語モデル(LLM)は、効果的な言語エージェント(LA)の構築を可能にし、従来のタスク指向対話(TOD)パラダイムにも革命をもたらした。
しかし、現在のアプローチは、重要なジレンマに直面している: TODシステムは、しばしば限られたターゲットAPIセットでトレーニングされ、新しいサービスと対話する際に、新しいデータが品質を維持する必要がある。
堅牢なマルチターン管理と高度な関数呼び出しの両方が効果的な対話エージェントにとって不可欠であるため、MultiWOZ 2.4(TOD)、BFCL V3(LA)、API-Bank(LA)の3つの一般的なベンチマークでこれらのスキルを評価する。
このシャームを橋渡しするために,対話型エージェント言語モデル(Conversational Agentic Language Model)を導入する。
CoALM-ITは、複雑なAPIを使用するマルチターンReAct推論をインターリーブする、慎重に構築されたマルチタスクデータセットである。
CoALM-ITを用いて、3つのモデル、CoALM 8B、CoALM 70B、CoALM 405Bをトレーニングし、3つのベンチマークでGPT-4oを含むトップドメイン特化モデルを上回りました。
関連論文リスト
- BattleAgentBench: A Benchmark for Evaluating Cooperation and Competition Capabilities of Language Models in Multi-Agent Systems [15.159418172629701]
大規模言語モデル(LLM)はますます強力になり、複雑なタスクを処理できるようになる。
シングルエージェントと比較して、マルチエージェントシステムは言語モデルの協調機能により高い要求がある。
我々は,3つの難易度の7つのサブステージを定義したBattleAgentBenchというベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-28T17:43:55Z) - Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。
モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。
20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-06-27T17:47:26Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - TESS: A Multi-intent Parser for Conversational Multi-Agent Systems with
Decentralized Natural Language Understanding Models [6.470108226184637]
マルチエージェントシステムは、ユーザ意図の自然言語理解を複雑にする。
本稿では,ユーザからの多目的発話を効率的に解析・オーケストレーションするパイプラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:39:23Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - Towards Robust Multi-Modal Reasoning via Model Selection [7.6621866737827045]
LLMはエージェントの"脳"として機能し、協調的な多段階タスク解決のための複数のツールを編成する。
我々はテスト時に無視できるランタイムオーバーヘッドを持つプラグインとして、$textitM3$フレームワークを提案する。
実験の結果,我々のフレームワークは,ユーザ入力とサブタスク依存の両方を考慮した動的モデル選択を可能にすることがわかった。
論文 参考訳(メタデータ) (2023-10-12T16:06:18Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Recommender AI Agent: Integrating Large Language Models for Interactive
Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。
InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文 参考訳(メタデータ) (2023-08-31T07:36:44Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。