論文の概要: Multi-Dimensional Prompt Chaining to Improve Open-Domain Dialogue Generation
- arxiv url: http://arxiv.org/abs/2601.01037v1
- Date: Sat, 03 Jan 2026 02:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.957516
- Title: Multi-Dimensional Prompt Chaining to Improve Open-Domain Dialogue Generation
- Title(参考訳): オープンドメイン対話生成を改善する多次元プロンプトチェイン
- Authors: Livia Leong Hui Teng,
- Abstract要約: 小型言語モデル(SLM)は、デプロイ上の大きな利点を提供するが、大きなモデルの対話品質をオープンドメイン設定で一致させるのに苦労することが多い。
本研究では,対話生成における人間類似性を高めるために,自然性,コヒーレンス,エンゲージネス次元を統合した多次元プロンプトチェーンフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small language models (SLMs) offer significant deployment advantages but often struggle to match the dialogue quality of larger models in open-domain settings. In this paper, we propose a multi-dimensional prompt-chaining framework that integrates Naturalness, Coherence, and Engagingness dimensions to enhance human-likeness in open-domain dialogue generation. We apply the framework to two SLMs, TinyLlama and Llama-2-7B, and benchmark their performance against responses generated by substantially larger models, including Llama-2-70B and GPT-3.5 Turbo. We then employ automatic and human evaluation to assess the responses based on diversity, contextual coherence, as well as overall quality. Results show that the full framework improves response diversity by up to 29%, contextual coherence by up to 28%, and engagingness as well as naturalness by up to 29%. Notably, Llama-2-7B achieves performance comparable to substantially larger models, including Llama-2-70B and GPT-3.5 Turbo. Overall, the findings demonstrate that carefully designed prompt-based strategies provide an effective and resource-efficient pathway to improving open-domain dialogue quality in SLMs.
- Abstract(参考訳): 小型言語モデル(SLM)は、デプロイ上の大きな利点を提供するが、大きなモデルの対話品質をオープンドメイン設定で一致させるのに苦労することが多い。
本論文では,オープンドメイン対話生成において,自然性,コヒーレンス,エンゲージネスの次元を統合した多次元プロンプトチェーンフレームワークを提案する。
このフレームワークをTinyLlama と Llama-2-7B の2つのSLMに適用し,Llama-2-70B や GPT-3.5 Turbo などの大規模モデルで生成された応答に対して評価を行った。
次に、多様性、文脈的一貫性、および全体的な品質に基づく応答を評価するために、自動的および人的評価を用いる。
その結果,全フレームワークは応答多様性を最大29%,コンテキストコヒーレンスを最大28%,エンゲージネスを最大29%改善することがわかった。
特に、Llama-2-7Bは、Llama-2-70BやGPT-3.5 Turboなど、かなり大型のモデルに匹敵する性能を実現している。
以上の結果から,SLMにおけるオープンドメイン対話の質向上に有効な手法として,プロンプトベースの戦略を慎重に設計したことが示唆された。
関連論文リスト
- Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making [24.534365665776672]
大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存している。
本研究では,DuSARを提案する。DuSARは1つの凍結LDMが共適応推論を行うことを可能にするデモフリーフレームワークである。
ALFWorldとMind2Webでは、DuSARはオープンソースのLLMで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-09T08:44:59Z) - ART: Adaptive Response Tuning Framework -- A Multi-Agent Tournament-Based Approach to LLM Response Optimization [0.0]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
本稿では,トーナメント型ELOランキングとマルチエージェント推論を用いたART(Adaptive Response Tuning)を提案する。
論文 参考訳(メタデータ) (2025-11-29T20:16:11Z) - MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling [115.74855199827596]
MiroThinkerは、ツール拡張推論と情報検索機能を向上させるために設計されたオープンソースの研究エージェントである。
モデルサイズやコンテキスト長のみをスケールアップする以前のエージェントとは異なり、MiroThinker氏はモデルレベルでのインタラクションスケーリングについて検討している。
論文 参考訳(メタデータ) (2025-11-14T18:52:07Z) - Beyond Single Models: Enhancing LLM Detection of Ambiguity in Requests through Debate [2.271776292902496]
大規模言語モデル(LLM)は、人間の言語を理解し、生成する上で重要な能力を示している。
本稿では,単一モデルを超えて検出と解決能力を高めるために設計されたマルチエージェント討論フレームワークを紹介し,評価する。
論文 参考訳(メタデータ) (2025-07-16T16:15:25Z) - Modeling the One-to-Many Property in Open-Domain Dialogue with LLMs [27.83533924583182]
オープンドメイン対話(OD)は1対1(o2m)特性を示し、単一の対話コンテキストに対して複数の適切な応答が存在する。
我々は、OD生成をMRG(Multi-Response Generation)とPS(Preference-based Selection)の2つの重要なタスクに分解することで、この特性をモデル化する。
o2mDialは、コンテキスト毎に複数の可視応答を特徴付けることで、o2mプロパティをキャプチャするために明示的に設計された対話コーパスである。
論文 参考訳(メタデータ) (2025-06-18T04:19:33Z) - Scalable Reinforcement Post-Training Beyond Static Human Prompts: Evolving Alignment via Asymmetric Self-Play [52.3079697845254]
evaは、オフラインとオンラインのRLポストトレーニングの両方で、言語モデルがトレーニングプロンプトを適応的に作成できるようにする最初の方法である。
我々は,エバが有効なRLキュリキュラを作成でき,アブレーションにまたがって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-10-31T08:15:32Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Towards Efficient Dialogue Pre-training with Transferable and
Interpretable Latent Structure [77.30953347462452]
本稿では、汎用ドメインから下流タスクへ、軽量で透過的な方法で容易に転送可能な潜在構造を持つ対話生成モデルを提案する。
伝達可能な潜在構造のおかげで,我々のモデルは,自動評価と人的評価の両面において,4つの強いベースラインよりも優れた対話応答が得られる。
論文 参考訳(メタデータ) (2022-10-22T14:46:43Z) - SUMBT+LaRL: Effective Multi-domain End-to-end Neural Task-oriented
Dialog System [6.73550057218157]
実効的なマルチドメインエンドツーエンドトレーニング型ニューラルダイアログシステム SUMBT+LaRL を提案する。
具体的には、SUMBT+はユーザー行動とダイアログの信念状態を推定し、LaRLは潜在システム行動空間をモデル化し、応答を生成する。
本モデルでは,コーパスによる評価では85.4%,シミュレータによる評価では81.40%の新たな成功率を達成した。
論文 参考訳(メタデータ) (2020-09-22T11:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。