Fugu-MT 論文翻訳(概要): Octopus v2: On-device language model for super agent

論文の概要: Octopus v2: On-device language model for super agent

arxiv url: http://arxiv.org/abs/2404.01744v2
Date: Wed, 3 Apr 2024 17:40:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 11:43:37.894418
Title: Octopus v2: On-device language model for super agent
Title（参考訳）: Octopus v2:スーパーエージェントのオンデバイス言語モデル
Authors: Wei Chen, Zhiyuan Li,
Abstract要約: 本研究は,GPT-4の性能を精度とレイテンシの両方で上回る20億のパラメータを持つデバイスモデルを実現するための新しい手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。
参考スコア（独自算出の注目度）: 10.998608318944985
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
Abstract（参考訳）: 言語モデルは様々なソフトウェアアプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示している。これらのモデルには、AIエージェントを作成する上で不可欠な機能を呼び出す重要な能力がある。クラウド環境での大規模言語モデルのパフォーマンスは高いが、プライバシやコストに関する懸念に関係していることが多い。関数呼び出しの現在のオンデバイスモデルには、レイテンシと正確性がある。本研究では,20億のパラメータを持つデバイス上でのモデルを用いて,GPT-4の性能を精度とレイテンシの両方で上回り,コンテキスト長を95%削減する手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。この方法では,実環境におけるさまざまなエッジデバイスへのデプロイに適したレベルへの遅延を低減し,実環境アプリケーションのパフォーマンス要件に適合する。

関連論文リスト

ODIA: Oriented Distillation for Inline Acceleration of LLM-based Function Calling [5.523499843271032]
本稿では,関数呼び出しを高速化するために,ODIA(Oriented Distillation for Inline Acceleration)と呼ばれる新しい手法を提案する。プロダクショントラフィックから"単純なクエリ"を自動的に識別し、より大きなモデルから小さなモデルへの知識を抽出することで、精度を維持しながら応答遅延を45%(予測)と78%(中間)に削減する。我々は,音楽アプリケーションにおける実環境展開によるアプローチの有効性を実証し,より小さなモデルでは60%のトラフィックを無視できる精度で処理することができた。
論文参考訳（メタデータ） (2025-07-10T04:44:47Z)
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。 AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-06-02T07:30:29Z)
Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling [6.102559098873098]
関数呼び出しは、情報検索、ソフトウェア工学、自動化といった分野に広く応用される複雑なタスクである。 LLM(Large Language Models)はこのプロセスを自動化できるが、計算コストが高く、リソース制約のある環境では実用的ではない。小型言語モデル(SLM)は効率よく動作し、応答時間を短縮し、計算要求を低減できる。
論文参考訳（メタデータ） (2025-04-27T15:26:51Z)
Token Level Routing Inference System for Edge Devices [21.721914273034972]
本稿では,クラウドベースの大規模モデルから重要なトークン生成を選択的に参照しながら,小型モデルでデバイス上での推論を可能にする,新しい協調型復号推論システムを提案する。注目すべきは、M1 MacBook上で0.5Bモデルのみを使用してCommonsenseQAのパフォーマンスを60%向上させ、クラウドの大規模モデルにアップロードされるトークン生成の7%以下であることだ。
論文参考訳（メタデータ） (2025-04-10T15:54:19Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文参考訳（メタデータ） (2025-03-11T17:53:02Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは表現空間の高レベル認知信号をキャプチャし、ツールを呼び出すタイミングを指示する。実験の結果,MeCoはLSMの内部認知信号を正確に検出し,ツール使用による意思決定を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
FuXi-$α$: Scaling Recommendation Model with Feature Interaction Enhanced Transformer [81.12174905444229]
近年の進歩は、大規模レコメンデーションモデルに逐次レコメンデーションモデルを拡張することが効果的な戦略であることを示している。これらの問題に対処するために、FuXi-$alpha$と呼ばれる新しいモデルを提案する。我々のモデルは既存のモデルよりも優れており、モデルのサイズが大きくなるにつれてその性能は継続的に向上する。
論文参考訳（メタデータ） (2025-02-05T09:46:54Z)
Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。 FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文参考訳（メタデータ） (2025-01-24T11:19:07Z)
Less is More: Optimizing Function Calling for LLM Execution on Edge Devices [0.44784055850794474]
大きな言語モデル(LLM)は、複雑な入力を処理したり、複数のツールを効果的に管理できないため、エッジでの関数呼び出しに苦労する。動的ツール選択のためのファインチューニングフリー関数呼び出し方式であるLess-is-Moreを紹介する。我々のアプローチは、LLMで利用可能なツールの数を選択的に削減することで、エッジデバイス上での機能呼び出し性能、実行時間、電力効率を大幅に改善する、というキーインサイトに基づいている。
論文参考訳（メタデータ） (2024-11-23T00:51:09Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Compressing Large Language Models with Automated Sub-Network Search [41.452512557226335]
我々は、下流タスク性能を改善しつつ、モデルサイズの削減を図るため、大規模言語モデルに対するモデル圧縮を検討する。我々はこれを、構造的コンポーネントを自動生成するニューラルネットワーク探索問題と表現する。本手法は,11種類のダウンストリームタスクに対して平均9.85%の改善を実現し,デバイス上でのレイテンシを最大22%改善する。
論文参考訳（メタデータ） (2024-10-09T02:14:39Z)
xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。 xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-09-05T03:22:22Z)
ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文参考訳（メタデータ） (2024-09-02T03:19:56Z)
The Impact of Hyperparameters on Large Language Model Inference Performance: An Evaluation of vLLM and HuggingFace Pipelines [6.381783966294295]
オープンソースの大規模言語モデル(LLM)により、開発者はプライバシやコンプライアンスといった側面をコントロールしながら、AIベースのソリューションを作成できる。我々は、vLLMとHuggingFaceのパイプラインという2つの推論ライブラリを使用して、20LLMのパフォーマンス、特にスループット(時間単位毎に生成されるトークン)を分析します。
論文参考訳（メタデータ） (2024-08-02T06:56:59Z)
Knowledge boosting during low-latency inference [20.617827647115874]
低レイテンシのストリーミングアプリケーションは、より大きなモデルの知識能力の恩恵を受けることができるが、エッジデバイスはリソース制約のためにこれらのモデルを実行できない。提案手法は,大規模モデルを推論中に時間遅延入力で動作させながら,小型モデルの性能を向上する新しい手法であるナレッジ・ブーイングを提案する。その結果,小型モデルと大規模モデルのパフォーマンスギャップが大きくなり,低レイテンシアプリケーションにおける大規模モデルコラボレーションに有望な方法が示された。
論文参考訳（メタデータ） (2024-07-09T22:04:23Z)
On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。 RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文参考訳（メタデータ） (2024-06-08T13:40:38Z)
A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions [18.36339203254509]
Fは軽量で関数ベースのクラウド実行モデルを導入し、IoTエッジデータ処理や異常検出など、さまざまなアプリケーションでその妥当性を見出す。
論文参考訳（メタデータ） (2023-08-11T04:41:19Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文参考訳（メタデータ） (2022-09-12T13:26:26Z)
Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文参考訳（メタデータ） (2021-09-01T07:01:33Z)
Communication-Computation Efficient Device-Edge Co-Inference via AutoML [4.06604174802643]
デバイスエッジのコ推論は、リソース制約のあるモバイルデバイスとエッジサーバの間のディープニューラルネットワークを分割する。オンデバイスモデルスパーシリティレベルと中間特徴圧縮比は、ワークロードと通信オーバーヘッドに直接的な影響を与える。深部強化学習(DRL)に基づく新しい自動機械学習(AutoML)フレームワークを提案する。
論文参考訳（メタデータ） (2021-08-30T06:36:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。