論文の概要: TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation
- arxiv url: http://arxiv.org/abs/2505.20016v1
- Date: Mon, 26 May 2025 14:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.492324
- Title: TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation
- Title(参考訳): TTPA:きめ細かな評価を施したトークンレベルのツール・ユース・アライメント・トレーニング・フレームワーク
- Authors: Chengrui Huang, Shen Gao, Zhengliang Shi, Dongsheng Wang, Shuo Shang,
- Abstract要約: Token-level Tool-use Preference Orignment Training Framework (TTPA)
TTPAはトークンレベルのツール使用嗜好データセットを構築するためのトレーニングパラダイムである。
- 参考スコア(独自算出の注目度): 27.71948796412585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing tool-learning methods usually rely on supervised fine-tuning, they often overlook fine-grained optimization of internal tool call details, leading to limitations in preference alignment and error discrimination. To overcome these challenges, we propose Token-level Tool-use Preference Alignment Training Framework (TTPA), a training paradigm for constructing token-level tool-use preference datasets that align LLMs with fine-grained preferences using a novel error-oriented scoring mechanism. TTPA first introduces reversed dataset construction, a method for creating high-quality, multi-turn tool-use datasets by reversing the generation flow. Additionally, we propose Token-level Preference Sampling (TPS) to capture fine-grained preferences by modeling token-level differences during generation. To address biases in scoring, we introduce the Error-oriented Scoring Mechanism (ESM), which quantifies tool-call errors and can be used as a training signal. Extensive experiments on three diverse benchmark datasets demonstrate that TTPA significantly improves tool-using performance while showing strong generalization ability across models and datasets.
- Abstract(参考訳): 既存のツール学習手法は通常、教師付き微調整に依存しているため、内部ツールコールの詳細のきめ細かい最適化を見落とし、好みのアライメントやエラー判別の制限につながることが多い。
これらの課題を克服するために,トークンレベルのツール使用嗜好データセットを構築するためのトレーニングパラダイムであるToken-level Tool-use Preference Orignment Training Framework (TTPA)を提案する。
TTPAはまず、生成フローを反転させて高品質で多用途のデータセットを作成する方法であるリバースデータセット構築を導入する。
さらに,トークンレベルの差分を生成中にモデル化することにより,微粒な選好を抽出するためのトークンレベルの選好サンプリング(TPS)を提案する。
スコアリングにおけるバイアスに対処するために,ツールコールエラーを定量化し,トレーニング信号として使用できるError-oriented Scoring Mechanism (ESM)を導入する。
3つの多様なベンチマークデータセットに対する大規模な実験により、TTPAは、モデルとデータセット間で強力な一般化能力を示しながら、ツール使用のパフォーマンスを著しく改善することが示された。
関連論文リスト
- Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [46.20445033086643]
大規模言語モデル(LLM)は、外部環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - Correct-N-Contrast: A Contrastive Approach for Improving Robustness to Spurious Correlations [89.86495158918615]
豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文 参考訳(メタデータ) (2022-03-03T05:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。