論文の概要: Measuring and Controlling Instruction (In)Stability in Language Model Dialogs
- arxiv url: http://arxiv.org/abs/2402.10962v4
- Date: Thu, 25 Jul 2024 18:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:11:46.553418
- Title: Measuring and Controlling Instruction (In)Stability in Language Model Dialogs
- Title(参考訳): 言語モデルダイアログにおけるインストラクションの測定と制御(In)安定性
- Authors: Kenneth Li, Tianle Liu, Naomi Bashkansky, David Bau, Fernanda Viégas, Hanspeter Pfister, Martin Wattenberg,
- Abstract要約: System-promptingは、言語モデルチャットボットをカスタマイズするツールで、特定の命令に従うことができる。
本稿では,仮説を検証し,セルフチャットによる命令安定性の評価を行うベンチマークを提案する。
我々は8ラウンドの会話で重要な指示ドリフトを明らかにした。
そこで本研究では,2つの強力なベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
- 参考スコア(独自算出の注目度): 72.38330196290119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: System-prompting is a standard tool for customizing language-model chatbots, enabling them to follow a specific instruction. An implicit assumption in the use of system prompts is that they will be stable, so the chatbot will continue to generate text according to the stipulated instructions for the duration of a conversation. We propose a quantitative benchmark to test this assumption, evaluating instruction stability via self-chats between two instructed chatbots. Testing popular models like LLaMA2-chat-70B and GPT-3.5, we reveal a significant instruction drift within eight rounds of conversations. An empirical and theoretical analysis of this phenomenon suggests the transformer attention mechanism plays a role, due to attention decay over long exchanges. To combat attention decay and instruction drift, we propose a lightweight method called split-softmax, which compares favorably against two strong baselines.
- Abstract(参考訳): システムプロンプティングは、言語モデルチャットボットをカスタマイズするための標準ツールであり、特定の命令に従うことができる。
システムプロンプトの使用における暗黙の仮定は、それらが安定しているというものであるため、チャットボットは会話の間、規定された指示に従ってテキストを生成し続ける。
この仮定を定量的に検証し、2つの指示されたチャットボット間のセルフチャットによる命令安定性を評価する。
LLaMA2-chat-70B や GPT-3.5 のような一般的なモデルをテストすると、8ラウンドの会話で重要な命令ドリフトが明らかになる。
この現象を実証的・理論的に分析すると、長い交換で注意が減衰するため、トランスフォーマーの注意機構が重要な役割を果たしていることが示唆される。
注目の減衰と命令のドリフトに対処するため,2つの強いベースラインに対して良好に比較可能なsplit-softmaxという軽量な手法を提案する。
関連論文リスト
- Modeling Real-Time Interactive Conversations as Timed Diarized Transcripts [11.067252960486272]
本稿では,事前学習した言語モデルを用いて,リアルタイム対話型会話をシミュレートする簡易かつ汎用的な手法を提案する。
本稿では,インスタントメッセージ対話と音声会話の2つのケーススタディを用いて,この手法の可能性を実証する。
論文 参考訳(メタデータ) (2024-05-21T21:14:31Z) - Dialogue-based generation of self-driving simulation scenarios using
Large Language Models [14.86435467709869]
シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。
現在のシミュレーションフレームワークは、高度に専門的なドメイン固有言語によって駆動される。
簡潔な英語の発話と、ユーザの意図をキャプチャする実行可能なコードの間には、しばしばギャップがある。
論文 参考訳(メタデータ) (2023-10-26T13:07:01Z) - Multi-Purpose NLP Chatbot : Design, Methodology & Conclusion [0.0]
本研究は,現在あるチャットボット技術環境を網羅的に分析するものである。
ユーザインタラクションと会話体験を改善するために強化学習戦略を利用する、非常に柔軟なシステムを提供する。
チャットボット技術の発展の複雑さと、これらの開発を推進してきた要因と、それらが様々な分野に及ぼした影響についても検討する。
論文 参考訳(メタデータ) (2023-10-13T09:47:24Z) - Toward Interactive Dictation [27.67813195022947]
本研究では,オープンエンド自然言語における音声編集コマンドを用いて,ユーザの判断を中断できる可能性について検討する。
この柔軟性をリアルタイムでサポートするには、システムは音声のスパンをディクテーションまたはコマンドとして段階的に分類し、コマンドであるスパンを解釈する必要がある。
より小さなモデルは1.3秒のレイテンシで30%のエンドステート精度を達成し、大きなモデルは55%のエンドステート精度を7秒のレイテンシで達成する。
論文 参考訳(メタデータ) (2023-07-08T16:30:13Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - Towards Robust Online Dialogue Response Generation [62.99904593650087]
これは、トレーニングと実世界のテストの相違によって引き起こされる可能性がある、と私たちは主張する。
本稿では, 発話レベルサンプリングと半発話レベルサンプリングの両方からなる階層的サンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T06:51:41Z) - Auto-tagging of Short Conversational Sentences using Natural Language
Processing Methods [0.0]
手動で10の基本的なカテゴリに約14万のビジターインプットをタグ付けしました。
我々は3種類の最先端モデルを検討し、自動タグ付け機能について報告した。
これらの実験で使用されるモデルの実装は、GitHubリポジトリからクローンすることができ、同様の自動タグ問題に対して、多くの労力なしでテストできます。
論文 参考訳(メタデータ) (2021-06-09T10:14:05Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。