論文の概要: D-SMART: Enhancing LLM Dialogue Consistency via Dynamic Structured Memory And Reasoning Tree
- arxiv url: http://arxiv.org/abs/2510.13363v1
- Date: Wed, 15 Oct 2025 09:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.608675
- Title: D-SMART: Enhancing LLM Dialogue Consistency via Dynamic Structured Memory And Reasoning Tree
- Title(参考訳): D-SMART:動的構造記憶と推論木によるLLM対話の整合性向上
- Authors: Xiang Lei, Qin Li, Min Zhang, Min Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、拡張された多ターン対話において、現実的な矛盾と論理的崩壊を示すことが多い。
マルチターン対話の一貫性を維持するために設計されたモデルに依存しないフレームワークであるD--101を提案する。
マルチターン対話の整合性を測定するために,NLIに基づく新しいメトリクスを導入する。
- 参考スコア(独自算出の注目度): 22.420810089099614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) often exhibit factual inconsistencies and logical decay in extended, multi-turn dialogues, a challenge stemming from their reliance on static, pre-trained knowledge and an inability to reason adaptively over the dialogue history. Prevailing mitigation strategies, such as Retrieval-Augmented Generation (RAG) and agentic working memories, improve information recall but still engage with fundamentally static knowledge sources and follow pre-defined single reasoning path. This hinders their ability to preserve factual and logical consistency of their responses in multi-turn dialogues while the context evolves over time. To address this issue, we propose D-SMART, a model-agnostic framework designed to maintain multi-turn dialogue consistency by enabling LLMs to build and reason over a dynamic, structured representation of the conversational context. This is achieved via two synergistic components: (1) a Dynamic Structured Memory (DSM), which incrementally constructs and maintains an authoritative, OWL-compliant knowledge graph of the conversation; and (2) a Reasoning Tree (RT), which executes inferences as an explicit and traceable multi-step search over the graph. As the popular-used quality score (judged by GPT-4) can overlook logical flaws, we introduce new NLI-based metrics to better measure multi-turn dialogue consistency. Comprehensive experiments on the MT-Bench-101 benchmark show that D-SMART significantly outperforms state-of-the-art baselines, elevating the dialogue consistency score by over 48\% for both proprietary and open-source models, and notably improves the quality score of the latter by up to 10.1\%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば、拡張された多ターン対話において現実的な矛盾と論理的崩壊を示し、静的で訓練済みの知識への依存と、対話の歴史に対して適応的に推論できないことに起因する課題である。
Retrieval-Augmented Generation (RAG) やエージェントワーキングメモリといった一般的な緩和戦略は、情報リコールを改善するが、基本的に静的な知識源と関わり、事前定義された単一推論経路に従う。
これにより、コンテキストが時間とともに進化する間、マルチターン対話において、応答の事実的および論理的一貫性を維持する能力が妨げられる。
この問題に対処するために,LLMが動的に構造化された会話コンテキストの表現を構築・推論できるようにすることにより,多ターン対話の一貫性を維持するために設計されたモデルに依存しないフレームワークD-SMARTを提案する。
1)動的構造化メモリ(DSM)は、会話の権威的でOWLに準拠した知識グラフを漸進的に構築し維持するものであり、(2)推論を明示的でトレース可能な多段階探索として実行する推論木(RT)である。
一般的な品質スコア(GPT-4で判断される)は論理的欠陥を無視できるため,NLIに基づく新しい指標を導入し,多方向対話の整合性を測定する。
MT-Bench-101ベンチマークの総合的な実験によると、D-SMARTは最先端のベースラインを大幅に上回り、プロプライエタリモデルとオープンソースモデルの両方で対話一貫性スコアが48倍以上上昇し、特に後者の品質スコアが最大10.1倍向上している。
関連論文リスト
- KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。
textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文 参考訳(メタデータ) (2025-09-26T04:32:29Z) - In Prospect and Retrospect: Reflective Memory Management for Long-term Personalized Dialogue Agents [70.12342024019044]
大規模言語モデル(LLM)は、オープンエンド対話において大きな進歩を遂げているが、関連する情報の保持と取得ができないため、その有効性は制限されている。
本稿では,長期対話エージェントのための新しいメカニズムであるリフレクティブメモリ管理(RMM)を提案する。
RMMは、LongMemEvalデータセットのメモリ管理なしでベースラインよりも10%以上精度が向上している。
論文 参考訳(メタデータ) (2025-03-11T04:15:52Z) - Advancing Multi-Party Dialogue Framework with Speaker-ware Contrastive Learning [10.678477576849579]
コントラスト学習に基づく多人数対話応答生成フレームワークを提案する。
CMRは2段階の自己教師型コントラスト学習フレームワークを採用している。
実験の結果、CMRは最先端のモデルよりも優れているだけでなく、大きな事前訓練された言語モデルにも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-20T06:28:22Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。
InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2023-09-21T09:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。