論文の概要: Toward Multi-Session Personalized Conversation: A Large-Scale Dataset and Hierarchical Tree Framework for Implicit Reasoning
- arxiv url: http://arxiv.org/abs/2503.07018v1
- Date: Mon, 10 Mar 2025 07:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:55.647271
- Title: Toward Multi-Session Personalized Conversation: A Large-Scale Dataset and Hierarchical Tree Framework for Implicit Reasoning
- Title(参考訳): マルチセッション・パーソナライズド・会話に向けて - 大規模データセットと階層木フレームワーク-
- Authors: Xintong Li, Jalend Bantupalli, Ria Dharmani, Yuwei Zhang, Jingbo Shang,
- Abstract要約: 2500のサンプルを持つ大規模長期データセットであるImplexConvを紹介し、それぞれに約100の会話セッションを含む。
また,会話履歴を複数のレベルの要約に構造化する新しい階層木フレームワークであるTaciTreeを提案する。
- 参考スコア(独自算出の注目度): 30.54506564763053
- License:
- Abstract: There has been a surge in the use of large language models (LLM) conversational agents to generate responses based on long-term history from multiple sessions. However, existing long-term open-domain dialogue datasets lack complex, real-world personalization and fail to capture implicit reasoning-where relevant information is embedded in subtle, syntactic, or semantically distant connections rather than explicit statements. In such cases, traditional retrieval methods fail to capture relevant context, and long-context modeling also becomes inefficient due to numerous complicated persona-related details. To address this gap, we introduce ImplexConv, a large-scale long-term dataset with 2,500 examples, each containing approximately 100 conversation sessions, designed to study implicit reasoning in personalized dialogues. Additionally, we propose TaciTree, a novel hierarchical tree framework that structures conversation history into multiple levels of summarization. Instead of brute-force searching all data, TaciTree enables an efficient, level-based retrieval process where models refine their search by progressively selecting relevant details. Our experiments demonstrate that TaciTree significantly improves the ability of LLMs to reason over long-term conversations with implicit contextual dependencies.
- Abstract(参考訳): 複数のセッションから長期履歴に基づいて応答を生成するために,大規模言語モデル(LLM)会話エージェントの利用が急増している。
しかし、既存の長期オープンドメインの対話データセットには、複雑で現実的なパーソナライズが欠如しており、暗黙の推論に関連する情報が明示的な文ではなく、微妙な、統語的、意味的に離れた関係に埋め込まれているような暗黙の推論を捉えることができない。
このような場合、従来の検索手法は関連するコンテキストを捉えることができず、多くの複雑なペルソナ関連の詳細のために長文のモデリングも非効率になる。
このギャップに対処するために、約100の会話セッションを含む2500のサンプルを持つ大規模長期データセットであるImplexConvを紹介し、パーソナライズされた対話における暗黙の推論を研究するように設計された。
さらに,会話履歴を複数のレベルの要約に構造化する新しい階層木フレームワークであるTaciTreeを提案する。
すべてのデータをブルートフォースで検索する代わりに、TaciTreeは、モデルが関連する詳細を段階的に選択することで、検索を洗練する効率的なレベルベースの検索プロセスを実現する。
実験の結果,TaciTreeは暗黙的文脈依存による長期会話の推論能力を大幅に向上することが示された。
関連論文リスト
- Enhancing Long-Term Memory using Hierarchical Aggregate Tree for Retrieval Augmented Generation [1.4665304971699265]
HATは子どものノードから情報をカプセル化し、奥行き制御で広い範囲をカバーできる。
実験では、HATはベースラインコンテキストよりもダイアログコヒーレンスと要約品質を改善している。
論文 参考訳(メタデータ) (2024-06-10T09:29:08Z) - Toward Conversational Agents with Context and Time Sensitive Long-term Memory [8.085414868117917]
最近まで、RAGに関するほとんどの研究は、ウィキペディアのような巨大なテキストデータベースからの情報検索に重点を置いてきた。
我々は,静的なデータベース検索と比較して,長文の対話データからの効果的な検索は2つの問題に直面していると論じる。
我々は、最近の長文でシミュレートされた会話のデータセットの上に構築された、あいまいで時間に基づく質問の新しいデータセットを生成する。
論文 参考訳(メタデータ) (2024-05-29T18:19:46Z) - ConvSDG: Session Data Generation for Conversational Search [29.211860955861244]
本稿では,セッションデータ生成のための大規模言語モデル(LLM)を用いて,対話型検索の実現可能性を検討する枠組みを提案する。
このフレームワーク内では、教師なしおよび半教師なし学習による対話/セッションレベルおよびクエリレベルのデータ生成を設計する。
生成されたデータは、会話の密集したレトリバーを微調整するために使用される。
論文 参考訳(メタデータ) (2024-03-17T20:34:40Z) - Evaluating Very Long-Term Conversational Memory of LLM Agents [95.84027826745609]
我々は,高品質で長期的な対話を生成するための,マシン・ヒューマン・パイプラインを導入する。
我々は、各エージェントに画像の共有と反応の能力を持たせる。
生成した会話は、長距離一貫性のために人間のアノテーションによって検証され、編集される。
論文 参考訳(メタデータ) (2024-02-27T18:42:31Z) - CONVERSER: Few-Shot Conversational Dense Retrieval with Synthetic Data
Generation [32.10366004426449]
対話型高密度検索のためのフレームワークであるConVERSERを提案する。
我々は,大言語モデルのテキスト内学習機能を利用して,検索コーパスの文節に与えられた会話クエリを生成する。
対話型検索ベンチマークOR-QuACとTREC CAsT 19の実験結果から,提案したConverSERは完全教師付きモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-09-13T06:40:24Z) - SSP: Self-Supervised Post-training for Conversational Search [63.28684982954115]
本稿では,対話型検索モデルを効率的に初期化するための3つの自己教師型タスクを備えた学習後パラダイムであるフルモデル(モデル)を提案する。
提案手法の有効性を検証するために,CAsT-19 と CAsT-20 の2つのベンチマークデータセットを用いて,会話検索タスクにモデルにより訓練後の会話エンコーダを適用した。
論文 参考訳(メタデータ) (2023-07-02T13:36:36Z) - History-Aware Hierarchical Transformer for Multi-session Open-domain
Dialogue System [59.78425104243993]
マルチセッションオープンドメイン対話のための履歴認識階層変換器(HAHT)を提案する。
HAHTは歴史会話の長期記憶を維持し、歴史情報を利用して現在の会話状況を理解する。
大規模マルチセッション会話データセットの実験結果は,提案したHAHTモデルがベースラインモデルより一貫して優れていることを示唆している。
論文 参考訳(メタデータ) (2023-02-02T06:54:33Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。