論文の概要: DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2504.02882v1
- Date: Wed, 02 Apr 2025 05:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 00:55:46.002522
- Title: DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
- Title(参考訳): DiaTool-DPO: ツール拡張大言語モデルのためのマルチターン直接参照最適化
- Authors: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin,
- Abstract要約: そこで本研究では,TA-LLMの対話能力を向上させる手法であるDiaTool-DPOを提案する。
TA-LLMインタラクションを5つの異なる対話状態を持つマルコフ決定プロセスとしてモデル化し、状態遷移軌跡に基づいてユーザクエリを3つのタイプに分類する。
評価の結果,DiaTool-DPOはGPT-4oの性能(情報収集では94.8%,ツールコールでは91%)に近づき,ベースラインよりも大幅に改善した。
- 参考スコア(独自算出の注目度): 7.404161214474878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in real-world applications, but face challenges in handling incomplete queries and out-of-scope requests. While existing approaches rely mainly on Supervised Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method that enhances TA-LLM's dialogue capabilities through Direct Preference Optimization. We model TA-LLM interactions as a Markov Decision Process with 5 distinct dialogue states and categorize user queries into 3 types based on their state transition trajectories. We automatically construct paired trajectory datasets of correct and incorrect dialogue flows and introduce a specialized objective loss for dialogue control. Our comprehensive evaluation demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in information gathering, 91% in tool call rejection) with substantial improvements over baseline (44% and 9.6% respectively) while maintaining core functionality. Our approach opens new possibilities for developing TA-LLMs that can handle diverse real-world scenarios without requiring additional expert demonstrations or human labeling.
- Abstract(参考訳): Tool-Augmented Larage Language Models (TA-LLMs) は、現実世界のアプリケーションでは有望だが、不完全なクエリやスコープ外要求を扱う際の課題に直面している。
既存のアプローチは,主にエキスパート軌道を用いたSupervised Fine-Tuningに頼っているが,直接参照最適化によりTA-LLMの対話能力を向上させる新しい手法であるDidiaTool-DPOを提案する。
TA-LLMインタラクションを5つの異なる対話状態を持つマルコフ決定プロセスとしてモデル化し、状態遷移軌跡に基づいてユーザクエリを3つのタイプに分類する。
正しい対話フローと不正確な対話フローのペア・トラジェクトリ・データセットを自動構築し,対話制御のための特殊目的損失を導入する。
総合評価の結果,DiaTool-DPOはGPT-4oの性能(情報収集では94.8%,ツールコールでは91%)に近づき,基本機能を維持しながらベースライン(44%,9.6%)を大幅に改善した。
我々のアプローチは、専門家によるデモンストレーションや人間によるラベル付けを必要とせずに、多様な現実世界シナリオを処理できるTA-LLMの開発に新たな可能性を開く。
関連論文リスト
- MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization [30.748085697067154]
ソクラティックガイダンス(MARS)を取り入れたマルチエージェントフレームワークを提案する。
MARSは7つのエージェントから構成され、それぞれ異なる機能を持ち、Plannerを自律的に使用して最適化パスを設計する。
提案手法の有効性を検証するため,様々なデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-21T06:19:55Z) - PFDial: A Structured Dialogue Instruction Fine-tuning Method Based on UML Flowcharts [47.18738316044761]
このデータセットは、5,055のプロセスノードを含む440のフローチャートから派生した12,705の高品質な中国語対話命令を含む。
PlantUML仕様に基づいて、各フローチャートはアトミックな対話ユニット、すなわち構造化された5タプルに変換される。
実験結果から, たった800サンプルでトレーニングした7Bモデルと, 全データでトレーニングした0.5Bモデルが90%以上の精度を達成できた。
論文 参考訳(メタデータ) (2025-03-09T17:43:30Z) - AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。
提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文 参考訳(メタデータ) (2025-02-24T07:02:31Z) - Evaluating and Enhancing Out-of-Domain Generalization of Task-Oriented Dialog Systems for Task Completion without Turn-level Dialog Annotations [2.453775887722866]
本研究は,大規模言語モデル(LLM)を自然言語ダイアログのみに微調整してToDタスクを実行できるかどうかを,このようなアノテーションを必要とせずに検討する。
ターンレベルのアノテーションを使わずに微調整されたモデルでは、一貫性のある適切な応答が生成される。
提案するZeroToDは,API呼び出し精度と全体的なタスク完了率を向上させるために,スキーマ拡張機構を組み込んだフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T22:10:51Z) - ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents [52.7201882529976]
対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Large Language Models as Zero-shot Dialogue State Tracker through Function Calling [42.00097476584174]
本稿では,大言語モデル(LLM)を用いた対話状態追跡の関数呼び出しによる解法を提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,オープン・ソースとプロプライエタリ・LLMの両面において,極めて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-16T06:13:18Z) - Application of frozen large-scale models to multimodal task-oriented
dialogue [0.0]
既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を使用して、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
論文 参考訳(メタデータ) (2023-10-02T01:42:28Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。