論文の概要: Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue
Summarization
- arxiv url: http://arxiv.org/abs/2401.15496v2
- Date: Wed, 31 Jan 2024 17:36:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 11:35:50.968106
- Title: Baichuan2-Sum: Instruction Finetune Baichuan2-7B Model for Dialogue
Summarization
- Title(参考訳): バイチュアン2-sum:対話要約のための指導細かなバイチュアン2-7bモデル
- Authors: Jianfei Xiao, Yancan Chen, Yimin Ou, Hanyi Yu, Yiyong Xiao
- Abstract要約: 本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。
異なる役割に対して異なる命令を設定することで、モデルは対話相互作用から学び、期待される要約を出力することができる。
実験により、提案モデルが2つの公開対話要約データセット上で、最先端の新たな結果を達成することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) like Llama, Baichuan and Bloom models show
remarkable ability with instruction fine-tuning in many natural language tasks.
Nevertheless, for the dialogue summarization task, which aims to generate
summaries for different roles in dialogue, most of the state-of-the-art methods
conduct on small models (e.g Bart and Bert). Existing methods try to add task
specified optimization on small models like adding global-local centrality
score to models. In this paper, we propose an instruction fine-tuning model:
Baichuan2-Sum, for role-oriented diaglouge summarization. By setting different
instructions for different roles, the model can learn from the dialogue
interactions and output the expected summaries. Furthermore, we applied NEFTune
technique to add suitable noise during training to improve the results. The
experiments demonstrate that the proposed model achieves the new
state-of-the-art results on two public dialogue summarization datasets: CSDS
and SAMSUM. We release our model and related codes to facilitate future studies
on dialogue summarization task.
- Abstract(参考訳): Llama、Baichuan、Bloomモデルのような大規模言語モデル(LLM)は、多くの自然言語タスクにおいて命令を微調整する優れた能力を示している。
それでも、対話における異なる役割の要約を意図した対話要約タスクでは、最先端の手法のほとんどは小さなモデル(例えばバートやバート)で実行される。
既存の方法は、グローバルな局所集中度スコアをモデルに追加するなど、小さなモデルにタスク指定の最適化を追加しようとする。
本稿では,役割指向のダイアグルージュ要約のための命令微調整モデルBaichuan2-Sumを提案する。
異なる役割に対して異なる指示を設定することで、モデルは対話対話から学び、期待される要約を出力することができる。
さらに, NEFTune 法を用いてトレーニング中に適切な雑音を付加し, 結果を改善する。
実験により,提案モデルがCSDSとSAMSUMの2つの公開対話要約データセットに対して,新たな最先端結果が得られることを示した。
我々は,対話要約タスクの今後の研究を容易にするため,モデルおよび関連コードをリリースする。
関連論文リスト
- Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking [57.92608483099916]
大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
論文 参考訳(メタデータ) (2023-02-12T15:05:10Z) - Understanding the Effectiveness of Very Large Language Models on Dialog
Evaluation [20.18656308749408]
大規模言語モデル (LLM) は生成に使われており、人間のようなテキストを出力することができる。
本稿では,プロンプト中のサンプル数と使用するサンプル選択の種類がモデルの性能に与える影響について検討する。
論文 参考訳(メタデータ) (2023-01-27T22:02:27Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - Few-shot Prompting Towards Controllable Response Generation [49.479958672988566]
まず,モデルのパラメータにアクセスすることなく,モデル生成に対するプロンプトと強化学習(RL)の組み合わせについて検討した。
マルチタスク学習を適用して、モデルが新しいタスクをより良く一般化できるようにします。
実験の結果,提案手法はパラメータにアクセスすることなく,複数のSOTA(State-of-the-art)対話モデルを制御することができることがわかった。
論文 参考訳(メタデータ) (2022-06-08T14:48:06Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - Post-Training Dialogue Summarization using Pseudo-Paraphrasing [12.083992819138716]
本稿では,対話から物語への言い換えとして,事前訓練済み言語モデル(PLM)を提案する。
総合的な実験により,本手法は対話要約におけるバニラPLMを大幅に改善することが示された。
論文 参考訳(メタデータ) (2022-04-28T13:42:19Z) - Towards Generalized Models for Task-oriented Dialogue Modeling on Spoken
Conversations [22.894541507068933]
本稿では,DSTC-10の音声対話課題における知識ベースタスク指向対話モデリングのための一般化モデルの構築について述べる。
我々は,人工誤り注入やラウンドトリップ音声変換など,手書きデータに対する広範なデータ拡張戦略を採用している。
本手法は, 客観的評価では3位, 最終公式評価では2位である。
論文 参考訳(メタデータ) (2022-03-08T12:26:57Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Dialogue Summarization with Supporting Utterance Flow Modeling and Fact
Regularization [58.965859508695225]
本稿では、2つの新しいモジュールを用いた対話要約のためのエンドツーエンドニューラルネットワークを提案する。
サポートされた発話フローモデリングは、前者の発話から後者へのフォーカスを円滑にシフトさせることで、コヒーレントな要約を生成するのに役立つ。
事実の正則化は、モデルトレーニング中に生成された要約は、基礎と真実の要約と実際に一致するように促します。
論文 参考訳(メタデータ) (2021-08-03T03:09:25Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。