Fugu-MT 論文翻訳(概要): Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents

論文の概要: Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents

arxiv url: http://arxiv.org/abs/2502.04392v1
Date: Thu, 06 Feb 2025 02:40:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.859224
Title: Division-of-Thoughts: Harnessing Hybrid Language Model Synergy for Efficient On-Device Agents
Title（参考訳）: Division-of-Thoughts:効率的なオンデバイスエージェントのためのハイブリッド言語モデルの相乗効果
Authors: Chenyang Shao, Xinyuan Hu, Yutang Lin, Fengli Xu,
Abstract要約: Division-of-Thoughts(DoT)は、ローカルとクラウドベースの言語モデル間のシナジーを活用する共同推論フレームワークである。 DoTは平均推論時間とAPIコストを66.12%と83.57%削減し、最高のベースライン手法で同等の推論精度を達成している。
参考スコア（独自算出の注目度）: 5.566936703366701
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid expansion of web content has made on-device AI assistants indispensable for helping users manage the increasing complexity of online tasks. The emergent reasoning ability in large language models offer a promising path for next-generation on-device AI agents. However, deploying full-scale Large Language Models (LLMs) on resource-limited local devices is challenging. In this paper, we propose Division-of-Thoughts (DoT), a collaborative reasoning framework leveraging the synergy between locally deployed Smaller-scale Language Models (SLMs) and cloud-based LLMs. DoT leverages a Task Decomposer to elicit the inherent planning abilities in language models to decompose user queries into smaller sub-tasks, which allows hybrid language models to fully exploit their respective strengths. Besides, DoT employs a Task Scheduler to analyze the pair-wise dependency of sub-tasks and create a dependency graph, facilitating parallel reasoning of sub-tasks and the identification of key steps. To allocate the appropriate model based on the difficulty of sub-tasks, DoT leverages a Plug-and-Play Adapter, which is an additional task head attached to the SLM that does not alter the SLM's parameters. To boost adapter's task allocation capability, we propose a self-reinforced training method that relies solely on task execution feedback. Extensive experiments on various benchmarks demonstrate that our DoT significantly reduces LLM costs while maintaining competitive reasoning accuracy. Specifically, DoT reduces the average reasoning time and API costs by 66.12% and 83.57%, while achieving comparable reasoning accuracy with the best baseline methods.
Abstract（参考訳）: ウェブコンテンツの急速な拡大により、オンラインタスクの複雑さの増加を管理するために、デバイス上のAIアシスタントは不可欠になった。大規模言語モデルにおける創発的な推論能力は、次世代のオンデバイスAIエージェントに有望なパスを提供する。しかし、リソース制限されたローカルデバイスにフルスケールのLarge Language Model(LLM)をデプロイすることは困難である。本稿では,ローカルにデプロイされたSmaller-scale Language Models (SLM) とクラウドベースの LLM の相乗効果を利用した協調推論フレームワークである Division-of-Thoughts (DoT) を提案する。 DoTはTask Decomposerを活用して、言語モデルに固有の計画能力を導入して、ユーザクエリを小さなサブタスクに分解する。さらに、DoTはタスクスケジューラを使用して、サブタスクのペアワイズ依存性を分析し、依存性グラフを作成し、サブタスクの並列推論とキーステップの識別を容易にする。サブタスクの難易度に基づいて適切なモデルを割り当てるために、DoTはPlug-and-Play Adapterを利用する。そこで本研究では,タスク実行フィードバックのみに依存する自己強化型トレーニング手法を提案する。様々なベンチマークによる大規模な実験により、DoTは競争的推論精度を維持しながらLLMコストを著しく低減することが示された。具体的には、DoTは平均推論時間とAPIコストを66.12%と83.57%削減し、最高のベースラインメソッドで同等の推論精度を達成する。

関連論文リスト

Route-and-Reason: Scaling Large Language Model Reasoning with Reinforced Model Router [9.580226379350737]
大規模言語モデルの問題解決能力を高めるためには,多段階推論が不可欠であることが証明されている。しかし、多くの推論ステップは比較的単純であり、より効率的な小規模言語モデルで処理できる。異種LLM間の協調推論を可能にする新しいフレームワークであるR2-Reasonerを提案する。
論文参考訳（メタデータ） (2025-06-06T09:18:56Z)
LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。 Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。 Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文参考訳（メタデータ） (2025-03-27T07:36:11Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Pre-trained Language Models Improve the Few-shot Prompt Ability of Decision Transformer [10.338170161831496]
決定変換器(DT)は、オフライン強化学習(RL)タスクにおいて、有望なアルゴリズムのクラスとして登場した。本稿では,Language model-d Prompt Transformer (LPDT)を紹介し,Language model-d Prompt Transformer (LPDT)について述べる。我々のアプローチは、事前訓練された言語モデルとRLタスクをシームレスに統合する。
論文参考訳（メタデータ） (2024-08-02T17:25:34Z)
From Instance Training to Instruction Learning: Task Adapters Generation from Instructions [29.452006810725184]
本稿では,事例学習の欠点に対処するために,人間の学習をシミュレートすることに焦点を当てる。タスク固有のモデルを自動的に構築するTAGI(Task Adapters from Instructions)を導入する。超自然的インストラクションとP3データセットを用いたTAGIの評価を行った。
論文参考訳（メタデータ） (2024-06-18T08:14:28Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)
Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2022-03-30T23:16:07Z)
Meta Reinforcement Learning with Autonomous Inference of Subtask Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文参考訳（メタデータ） (2020-01-01T17:34:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。