論文の概要: Hammer: Robust Function-Calling for On-Device Language Models via Function Masking
- arxiv url: http://arxiv.org/abs/2410.04587v1
- Date: Thu, 10 Oct 2024 17:29:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:36:17.310924
- Title: Hammer: Robust Function-Calling for On-Device Language Models via Function Masking
- Title(参考訳): Hammer: 関数マスキングによるオンデバイス言語モデルのためのロバスト関数計算
- Authors: Qiqiang Lin, Muning Wen, Qiuying Peng, Guanyu Nie, Junwei Liao, Jun Wang, Xiaoyun Mo, Jiamu Zhou, Cheng Cheng, Yin Zhao, Jun Wang, Weinan Zhang,
- Abstract要約: Hammerはデバイス上での関数呼び出し用に特別に設計されたファンデーションモデルの新しいファミリーである。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークで堅牢な一般化を示すことを示している。
- 参考スコア(独自算出の注目度): 26.495781685810044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have demonstrated impressive value in performing as autonomous agents when equipped with external tools and API calls. Nonetheless, effectively harnessing their potential for executing complex tasks crucially relies on enhancements in their function calling capabilities. This paper identifies a critical gap in existing function calling models, where performance varies significantly across benchmarks, often due to being misled by specific naming conventions. To address such an issue, we introduce Hammer, a novel family of foundation models specifically engineered for on-device function calling. Hammer employs an augmented dataset that enhances models' sensitivity to irrelevant functions and incorporates function masking techniques to minimize misleading. Our empirical evaluations reveal that Hammer not only outperforms larger models but also demonstrates robust generalization across diverse benchmarks, achieving sota results. Our open source contributions include a specialized dataset for irrelevance detection, a tuning framework for enhanced generalization, and the Hammer models, establishing a new standard for function calling performance.
- Abstract(参考訳): 大規模な言語モデルは、外部ツールやAPI呼び出しを備えた場合、自律的なエージェントとして実行する上で、驚くべき価値を誇示している。
それでも、複雑なタスクの実行において、その潜在能力を効果的に活用することは、関数呼び出し機能の拡張に依存している。
本稿では,既存の関数呼び出しモデルにおいて,特定の命名規則で誤解される場合が多いため,ベンチマーク毎に性能が著しく異なる重要なギャップを指摘した。
このような問題に対処するために、デバイス上での関数呼び出し用に特別に設計された基礎モデルの新しいファウンデーションモデルであるHammerを紹介します。
Hammerは、無関係な関数に対するモデルの感度を高める拡張データセットを採用し、誤認を最小限にするために関数マスキング技術を取り入れている。
我々の経験的評価は、ハマーがより大きなモデルを上回るだけでなく、様々なベンチマークにまたがる堅牢な一般化を証明し、ソータ結果を達成していることを示している。
我々のオープンソースコントリビューションには、無関係検出のための特別なデータセット、一般化のためのチューニングフレームワーク、Hammerモデルが含まれており、関数呼び出し性能の新たな標準を確立しています。
関連論文リスト
- Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks [0.8425561594225592]
本研究では,関数呼び出しにおいて,より小さな言語モデルを訓練するための新しいフレームワークを提案する。
特定の論理的および数学的推論タスクに焦点を当てている。
このアプローチは,関数呼び出しによるこれらのタスクの小型モデルの性能向上を目的としている。
論文 参考訳(メタデータ) (2024-10-24T16:27:35Z) - CITI: Enhancing Tool Utilizing Ability in Large Language Models without Sacrificing General Performance [17.723293304671877]
コンポーネントベースツール活用能力注入法(CITI)を提案する。
異なるコンポーネントの勾配に基づく重要度スコアによると、CITIは微調整プロセスによって生じる能力衝突を軽減する。
実験結果から,本手法は様々な評価指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-20T04:06:28Z) - How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics [17.086867242274813]
パラメータの数やトレーニングの種類といったモデル特性の関数としてのパフォーマンスがどのように発達するかを分析する。
パラメータの数とパフォーマンスの間には明確な関係があるが、特定のサイズのブラケット内にはまだ幅広いパフォーマンスポイントが分散している。
また、未公表のサンプリングパラメータによって可能となるアクセスメソッド間の性能について、ある程度の予測不可能性も見出す。
論文 参考訳(メタデータ) (2024-06-20T07:17:09Z) - FamiCom: Further Demystifying Prompts for Language Models with Task-Agnostic Performance Estimation [73.454943870226]
言語モデルは、コンテキスト内学習能力に優れています。
本稿では,タスク非依存のパフォーマンス推定のためのより包括的な尺度であるFamiComを提案する。
論文 参考訳(メタデータ) (2024-06-17T06:14:55Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Anchor function: a type of benchmark functions for studying language
models [18.005251277048178]
本稿では,「アンカーキー」パターンに従うタスクの学習における言語モデル学習のためのアンカー関数の概念を提案する。
アンカー機能は糖尿病研究におけるマウスに類似した役割を担っており、特に学術研究に適している。
論文 参考訳(メタデータ) (2024-01-16T12:10:49Z) - Specialist or Generalist? Instruction Tuning for Specific NLP Tasks [58.422495509760154]
包括的汎用的チューニングを取り入れることで,スペシャリストモデルの構築に寄与するかどうかを検討する。
実験では,異なる範囲で4つの目標タスクを評価した。
この効果は、タスク固有のトレーニングデータの量が限られている場合に特に顕著である。
論文 参考訳(メタデータ) (2023-10-23T19:46:48Z) - On the Efficacy of Generalization Error Prediction Scoring Functions [33.24980750651318]
一般化誤差予測器(GEP)は,サンプルレベルのスコアからデータセットレベルの誤差推定を導出することにより,未知分布のモデル性能を予測することを目的としている。
機構選択に依存しない一般的なスコアリング関数(自信,局所多様体の滑らかさ,モデル適合性)の有効性を厳密に研究する。
論文 参考訳(メタデータ) (2023-03-23T18:08:44Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Beyond the Imitation Game: Quantifying and extrapolating the
capabilities of language models [648.3665819567409]
言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。
ビッグベンチは204のタスクで構成され、132の機関で450人の著者が貢献している。
我々は,OpenAIのGPTモデル,Google内部の高密度トランスアーキテクチャ,BIGベンチ上のスイッチ型スパーストランスの挙動を評価する。
論文 参考訳(メタデータ) (2022-06-09T17:05:34Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。