論文の概要: TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation
- arxiv url: http://arxiv.org/abs/2505.20016v1
- Date: Mon, 26 May 2025 14:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.492324
- Title: TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation
- Title(参考訳): TTPA:きめ細かな評価を施したトークンレベルのツール・ユース・アライメント・トレーニング・フレームワーク
- Authors: Chengrui Huang, Shen Gao, Zhengliang Shi, Dongsheng Wang, Shuo Shang,
- Abstract要約: Token-level Tool-use Preference Orignment Training Framework (TTPA)
TTPAはトークンレベルのツール使用嗜好データセットを構築するためのトレーニングパラダイムである。
- 参考スコア(独自算出の注目度): 27.71948796412585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing tool-learning methods usually rely on supervised fine-tuning, they often overlook fine-grained optimization of internal tool call details, leading to limitations in preference alignment and error discrimination. To overcome these challenges, we propose Token-level Tool-use Preference Alignment Training Framework (TTPA), a training paradigm for constructing token-level tool-use preference datasets that align LLMs with fine-grained preferences using a novel error-oriented scoring mechanism. TTPA first introduces reversed dataset construction, a method for creating high-quality, multi-turn tool-use datasets by reversing the generation flow. Additionally, we propose Token-level Preference Sampling (TPS) to capture fine-grained preferences by modeling token-level differences during generation. To address biases in scoring, we introduce the Error-oriented Scoring Mechanism (ESM), which quantifies tool-call errors and can be used as a training signal. Extensive experiments on three diverse benchmark datasets demonstrate that TTPA significantly improves tool-using performance while showing strong generalization ability across models and datasets.
- Abstract(参考訳): 既存のツール学習手法は通常、教師付き微調整に依存しているため、内部ツールコールの詳細のきめ細かい最適化を見落とし、好みのアライメントやエラー判別の制限につながることが多い。
これらの課題を克服するために,トークンレベルのツール使用嗜好データセットを構築するためのトレーニングパラダイムであるToken-level Tool-use Preference Orignment Training Framework (TTPA)を提案する。
TTPAはまず、生成フローを反転させて高品質で多用途のデータセットを作成する方法であるリバースデータセット構築を導入する。
さらに,トークンレベルの差分を生成中にモデル化することにより,微粒な選好を抽出するためのトークンレベルの選好サンプリング(TPS)を提案する。
スコアリングにおけるバイアスに対処するために,ツールコールエラーを定量化し,トレーニング信号として使用できるError-oriented Scoring Mechanism (ESM)を導入する。
3つの多様なベンチマークデータセットに対する大規模な実験により、TTPAは、モデルとデータセット間で強力な一般化能力を示しながら、ツール使用のパフォーマンスを著しく改善することが示された。
関連論文リスト
- Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文 参考訳(メタデータ) (2025-06-11T02:08:52Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [46.20445033086643]
大規模言語モデル(LLM)は、外部環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [29.001249598245]
Reward-Oriented inStruction data sElectionを導入し、タスク固有の命令チューニングのためのデータ選択を最適化する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。
選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。
正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文 参考訳(メタデータ) (2024-11-07T23:03:11Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Distributionally robust self-supervised learning for tabular data [2.942619386779508]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - One-Shot Learning as Instruction Data Prospector for Large Language Models [108.81681547472138]
textscNuggetsはワンショット学習を使用して、広範なデータセットから高品質な命令データを選択する。
我々は,textscNuggets がキュレートした例の上位1%による命令チューニングが,データセット全体を用いた従来の手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-16T03:33:12Z) - Correct-N-Contrast: A Contrastive Approach for Improving Robustness to Spurious Correlations [89.86495158918615]
豪華な相関関係は、堅牢な機械学習にとって大きな課題となる。
経験的リスク最小化(ERM)で訓練されたモデルは、クラスラベルとスプリアス属性の相関に依存することを学習することができる。
CNC(Correct-N-Contrast, Correct-N-Contrast)を提案する。
論文 参考訳(メタデータ) (2022-03-03T05:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。