論文の概要: Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts
for Zero-Shot Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2306.00434v1
- Date: Thu, 1 Jun 2023 08:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:30:26.392870
- Title: Divide, Conquer, and Combine: Mixture of Semantic-Independent Experts
for Zero-Shot Dialogue State Tracking
- Title(参考訳): 分割、征服、結合:ゼロショット対話状態追跡のための意味独立専門家の混合
- Authors: Qingyue Wang, Liang Ding, Yanan Cao, Yibing Zhan, Zheng Lin, Shi Wang,
Dacheng Tao and Li Guo
- Abstract要約: 対話状態追跡(DST)のためのゼロショット転送学習は、ドメイン内のデータを収集するコストを伴わずに、様々なタスク指向の対話ドメインを扱うのに役立つ。
既存の研究は主に一般化を強化するために、一般的なデータまたはモデルレベルの拡張方法を研究する。
我々は、見られているデータのセマンティクスを明示的に切り離す、単純で効果的な「分割、征服、結合」ソリューションを提案する。
- 参考スコア(独自算出の注目度): 83.40120598637665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot transfer learning for Dialogue State Tracking (DST) helps to handle
a variety of task-oriented dialogue domains without the cost of collecting
in-domain data. Existing works mainly study common data- or model-level
augmentation methods to enhance the generalization but fail to effectively
decouple the semantics of samples, limiting the zero-shot performance of DST.
In this paper, we present a simple and effective "divide, conquer and combine"
solution, which explicitly disentangles the semantics of seen data, and
leverages the performance and robustness with the mixture-of-experts mechanism.
Specifically, we divide the seen data into semantically independent subsets and
train corresponding experts, the newly unseen samples are mapped and inferred
with mixture-of-experts with our designed ensemble inference. Extensive
experiments on MultiWOZ2.1 upon the T5-Adapter show our schema significantly
and consistently improves the zero-shot performance, achieving the SOTA on
settings without external knowledge, with only 10M trainable parameters1.
- Abstract(参考訳): 対話状態追跡(DST)のためのゼロショット転送学習は、ドメイン内のデータを集めるコストを伴わずに、様々なタスク指向の対話ドメインを扱うのに役立つ。
既存の研究は主に、一般化を強化するために一般的なデータやモデルレベルの拡張方法を研究するが、サンプルのセマンティクスを効果的に分離することができず、DSTのゼロショット性能を制限している。
本稿では,参照データのセマンティクスを明示的に分離し,その性能とロバスト性を活用する,シンプルで効果的な「分割,征服,結合」ソリューションを提案する。
具体的には、得られたデータを意味的に独立したサブセットに分割し、対応する専門家を訓練する。
T5-Adapter上でのMultiWOZ2.1の大規模な実験により、我々のスキーマは、外部知識のない設定でSOTAを10Mのトレーニング可能なパラメータで達成し、ゼロショット性能を大幅に改善する。
関連論文リスト
- A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Mastering Collaborative Multi-modal Data Selection: A Focus on Informativeness, Uniqueness, and Representativeness [65.01625761120924]
我々は、貴重なサンプルはタスクを知らせ、非冗長であり、サンプル分布(つまり、外れ値ではない)を表すべきであると論じる。
我々は、効果的なデータ選択のために、インフォーマル性、ユニーク性、代表性という3つの重要な原則を活用するコラボレーティブフレームワーク、DataTailorを提案する。
様々なベンチマークの実験により、DataTailorはデータの15%でフルデータの微調整のパフォーマンスの100.8%を達成している。
論文 参考訳(メタデータ) (2024-12-09T08:36:10Z) - Mixture of Efficient Diffusion Experts Through Automatic Interval and Sub-Network Selection [63.96018203905272]
本稿では, 事前学習した拡散モデルを用いて, 効率の良い専門家の混入を図り, サンプリングコストを削減することを提案する。
提案手法であるDiffPruningの有効性を,複数のデータセットで示す。
論文 参考訳(メタデータ) (2024-09-23T21:27:26Z) - A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。
まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。
次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文 参考訳(メタデータ) (2024-08-05T23:20:32Z) - Diverse and Effective Synthetic Data Generation for Adaptable Zero-Shot Dialogue State Tracking [12.116834890063146]
合成データ生成によるトレーニングデータの多様性の向上により,ゼロショット対話状態追跡(DST)の性能向上を示す。
既存のDSTデータセットは、データ収集のコストが高いため、それらがカバーするアプリケーションドメイン数やスロットタイプに大きく制限されている。
この研究は、合成ゼロショットDSTデータセットを生成する新しい完全自動データ生成アプローチで、この課題に対処する。
論文 参考訳(メタデータ) (2024-05-21T03:04:14Z) - Textual Entailment for Event Argument Extraction: Zero- and Few-Shot
with Multi-Source Learning [22.531385318852426]
近年の研究では,NLPタスクを文章化を用いてテキスト・エンターテイメント・タスクとして再キャストできることが示されている。
イベント引数抽出(EAE)においてもエンテーメントが有効であることを示し,手作業によるアノテーションの必要性を50%と20%に削減した。
論文 参考訳(メタデータ) (2022-05-03T08:53:55Z) - Robust Dialogue State Tracking with Weak Supervision and Sparse Data [2.580163308334609]
対話状態追跡(DST)を新しいデータに一般化することは、トレーニング中の豊富なきめ細かい監督に依存しているため困難である。
サンプルの間隔、分布シフト、新しい概念やトピックの発生は、しばしば推論中に深刻なパフォーマンス劣化を引き起こす。
そこで本研究では,詳細な手動スパンラベルを必要とせず,抽出DSTモデルを構築するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T16:58:12Z) - Zero-Shot Dialogue State Tracking via Cross-Task Transfer [69.70718906395182]
我々は,ゼロショット対話状態追跡タスクに対して,一般質問応答(QA)コーパスからテキストクロスタスク知識を転送することを提案する。
具体的には,抽出QAと複数選択QAをシームレスに組み合わせた転送可能な生成QAモデルであるTransferQAを提案する。
さらに,否定的質問サンプリングと文脈トランケーションという,解決不可能な質問を構築するための2つの効果的な方法を紹介した。
論文 参考訳(メタデータ) (2021-09-10T03:57:56Z) - Effectiveness of Arbitrary Transfer Sets for Data-free Knowledge
Distillation [28.874162427052905]
本研究では, ランダムノイズ, 公開合成, 自然データセットなどの「任意移動集合」の有効性について検討する。
このデータセットが「ターゲットクラスのバランス」である場合、任意のデータを用いて知識蒸留を行うことによる驚くべき効果を見出す。
論文 参考訳(メタデータ) (2020-11-18T06:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。