論文の概要: DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2504.02882v1
- Date: Wed, 02 Apr 2025 05:47:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:49:28.510930
- Title: DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models
- Title(参考訳): DiaTool-DPO: ツール拡張大言語モデルのためのマルチターン直接参照最適化
- Authors: Sunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin,
- Abstract要約: そこで本研究では,TA-LLMの対話能力を向上させる手法であるDiaTool-DPOを提案する。
TA-LLMインタラクションを5つの異なる対話状態を持つマルコフ決定プロセスとしてモデル化し、状態遷移軌跡に基づいてユーザクエリを3つのタイプに分類する。
評価の結果,DiaTool-DPOはGPT-4oの性能(情報収集では94.8%,ツールコールでは91%)に近づき,ベースラインよりも大幅に改善した。
- 参考スコア(独自算出の注目度): 7.404161214474878
- License:
- Abstract: Tool-Augmented Larage Language Models (TA-LLMs) have shown promise in real-world applications, but face challenges in handling incomplete queries and out-of-scope requests. While existing approaches rely mainly on Supervised Fine-Tuning with expert trajectories, we propose DiaTool-DPO, a novel method that enhances TA-LLM's dialogue capabilities through Direct Preference Optimization. We model TA-LLM interactions as a Markov Decision Process with 5 distinct dialogue states and categorize user queries into 3 types based on their state transition trajectories. We automatically construct paired trajectory datasets of correct and incorrect dialogue flows and introduce a specialized objective loss for dialogue control. Our comprehensive evaluation demonstrates that DiaTool-DPO approaches GPT-4o's performance (94.8% in information gathering, 91% in tool call rejection) with substantial improvements over baseline (44% and 9.6% respectively) while maintaining core functionality. Our approach opens new possibilities for developing TA-LLMs that can handle diverse real-world scenarios without requiring additional expert demonstrations or human labeling.
- Abstract(参考訳): Tool-Augmented Larage Language Models (TA-LLMs) は、現実世界のアプリケーションでは有望だが、不完全なクエリやスコープ外要求を扱う際の課題に直面している。
既存のアプローチは,主にエキスパート軌道を用いたSupervised Fine-Tuningに頼っているが,直接参照最適化によりTA-LLMの対話能力を向上させる新しい手法であるDidiaTool-DPOを提案する。
TA-LLMインタラクションを5つの異なる対話状態を持つマルコフ決定プロセスとしてモデル化し、状態遷移軌跡に基づいてユーザクエリを3つのタイプに分類する。
正しい対話フローと不正確な対話フローのペア・トラジェクトリ・データセットを自動構築し,対話制御のための特殊目的損失を導入する。
総合評価の結果,DiaTool-DPOはGPT-4oの性能(情報収集では94.8%,ツールコールでは91%)に近づき,基本機能を維持しながらベースライン(44%,9.6%)を大幅に改善した。
我々のアプローチは、専門家によるデモンストレーションや人間によるラベル付けを必要とせずに、多様な現実世界シナリオを処理できるTA-LLMの開発に新たな可能性を開く。
関連論文リスト
- Evaluating and Enhancing Out-of-Domain Generalization of Task-Oriented Dialog Systems for Task Completion without Turn-level Dialog Annotations [2.453775887722866]
本研究は,大規模言語モデル(LLM)を自然言語ダイアログのみに微調整してToDタスクを実行できるかどうかを,このようなアノテーションを必要とせずに検討する。
ターンレベルのアノテーションを使わずに微調整されたモデルでは、一貫性のある適切な応答が生成される。
提案するZeroToDは,API呼び出し精度と全体的なタスク完了率を向上させるために,スキーマ拡張機構を組み込んだフレームワークである。
論文 参考訳(メタデータ) (2025-02-18T22:10:51Z) - ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents [52.7201882529976]
対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文 参考訳(メタデータ) (2024-06-17T17:55:38Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Large Language Models as Zero-shot Dialogue State Tracker through Function Calling [42.00097476584174]
本稿では,大言語モデル(LLM)を用いた対話状態追跡の関数呼び出しによる解法を提案する。
この方法はゼロショットDSTを改善し、広範囲のデータ収集やモデルチューニングなしに多様なドメインに適応できる。
提案手法は,オープン・ソースとプロプライエタリ・LLMの両面において,極めて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-02-16T06:13:18Z) - Application of frozen large-scale models to multimodal task-oriented
dialogue [0.0]
既存のLarge Language Models ENnhanced to See Framework(LENS Framework)を使用して、マルチモーダルタスク指向対話の実現可能性をテストする。
LENS Frameworkは、追加のトレーニングや事前訓練されたモデルの固定パラメータなしでコンピュータビジョンタスクを解く方法として提案されている。
論文 参考訳(メタデータ) (2023-10-02T01:42:28Z) - Unlocking the Potential of User Feedback: Leveraging Large Language
Model as User Simulator to Enhance Dialogue System [65.93577256431125]
本稿では,ユーザガイド応答最適化 (UGRO) という代替手法を提案し,タスク指向の対話モデルと組み合わせる。
このアプローチでは、アノテーションのないユーザシミュレータとしてLLMを使用して対話応答を評価し、より小型のエンドツーエンドTODモデルと組み合わせる。
提案手法は従来のSOTA(State-of-the-art)よりも優れている。
論文 参考訳(メタデータ) (2023-06-16T13:04:56Z) - DERA: Enhancing Large Language Model Completions with Dialog-Enabled
Resolving Agents [5.562984399879218]
大規模言語モデル(LLM)は多くの自然言語理解タスクに有用なツールとして登場した。
本稿では,対話型解決エージェント(DERA)について述べる。
DERAは、LPMの会話能力の増加、すなわちGPT-4によって実現されたパラダイムである。
モデルがフィードバックを伝達し、反復的に出力を改善するための、シンプルで解釈可能なフォーラムを提供する。
論文 参考訳(メタデータ) (2023-03-30T00:30:19Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Modeling Long Context for Task-Oriented Dialogue State Generation [51.044300192906995]
本稿では,シンプルで効果的な発話タグ付け手法と双方向言語モデルを用いたマルチタスク学習モデルを提案する。
提案手法は,入力対話コンテキストシーケンスが長い場合に,ベースラインの性能が著しく低下する,という問題を解決する。
本実験では,MultiWOZ 2.0データセットにおいて,ベースラインに対して7.03%の相対的改善を実現し,新しい最先端のジョイントゴール精度を52.04%に設定した。
論文 参考訳(メタデータ) (2020-04-29T11:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。