論文の概要: Dual Knowledge-Enhanced Two-Stage Reasoner for Multimodal Dialog Systems
- arxiv url: http://arxiv.org/abs/2509.07817v1
- Date: Tue, 09 Sep 2025 14:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.366724
- Title: Dual Knowledge-Enhanced Two-Stage Reasoner for Multimodal Dialog Systems
- Title(参考訳): マルチモーダル対話システムのためのデュアル知識強化二段共振器
- Authors: Xiaolin Chen, Xuemeng Song, Haokun Wen, Weili Guan, Xiangyu Zhao, Liqiang Nie,
- Abstract要約: テキスト応答生成を促進するために,多言語モデル(LLM)による二重知識(テキスト属性と非構造化レビュー知識)を完全に活用することを目的としている。
マルチモーダルダイアログシステム(DK2R)にLLMを適用した二段階二段階推論器を提案する。
- 参考スコア(独自算出の注目度): 81.87703298503374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual response generation is pivotal for multimodal \mbox{task-oriented} dialog systems, which aims to generate proper textual responses based on the multimodal context. While existing efforts have demonstrated remarkable progress, there still exist the following limitations: 1) \textit{neglect of unstructured review knowledge} and 2) \textit{underutilization of large language models (LLMs)}. Inspired by this, we aim to fully utilize dual knowledge (\textit{i.e., } structured attribute and unstructured review knowledge) with LLMs to promote textual response generation in multimodal task-oriented dialog systems. However, this task is non-trivial due to two key challenges: 1) \textit{dynamic knowledge type selection} and 2) \textit{intention-response decoupling}. To address these challenges, we propose a novel dual knowledge-enhanced two-stage reasoner by adapting LLMs for multimodal dialog systems (named DK2R). To be specific, DK2R first extracts both structured attribute and unstructured review knowledge from external knowledge base given the dialog context. Thereafter, DK2R uses an LLM to evaluate each knowledge type's utility by analyzing LLM-generated provisional probe responses. Moreover, DK2R separately summarizes the intention-oriented key clues via dedicated reasoning, which are further used as auxiliary signals to enhance LLM-based textual response generation. Extensive experiments conducted on a public dataset verify the superiority of DK2R. We have released the codes and parameters.
- Abstract(参考訳): テキスト応答生成は、マルチモーダルコンテキストに基づいて適切なテキスト応答を生成することを目的とした、マルチモーダルな \mbox{task-oriented} ダイアログシステムにおいて重要である。
既存の取り組みは目覚ましい進歩を見せているが、以下の制限がある。
1)非構造化レビュー知識の「textit{neglect」及び
2) 大言語モデル (LLMs) の \textit{underutilization 。
そこで我々は,マルチモーダルなタスク指向対話システムにおけるテキスト応答生成を促進するために,デュアル知識(\textit{i.e. } 構造化属性と非構造化レビュー知識)をLLMで完全に活用することを目指している。
しかし、このタスクは2つの主要な課題のために簡単ではない。
1) \textit{dynamic knowledge type selection} および
2) \textit{intention-Response decoupling}
これらの課題に対処するために,マルチモーダルダイアログシステム(DK2R)にLLMを適用することによって,新たな2段階推論手法を提案する。
具体的には、DK2Rはまず、ダイアログコンテキストが与えられた外部知識ベースから構造化属性と非構造化レビュー知識の両方を抽出する。
その後、DK2RはLLM生成仮プローブ応答を解析し、各知識型の有用性を評価するためにLLMを使用する。
さらに、DK2Rは、LLMベースのテキスト応答生成を強化する補助信号としてさらに使用される専用推論により、意図的キーヒントを別々に要約する。
公開データセット上で行われた大規模な実験は、DK2Rの優位性を検証する。
コードとパラメータをリリースしました。
関連論文リスト
- Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation [58.799397354312596]
大規模言語モデル(LLM)は、様々な領域、特にシステム1タスクにおいて顕著な機能を示した。
System2-to-System1法に関する最近の研究が急増し、推論時間計算によるシステム2の推論知識が探索された。
本稿では,システム2タスクの代表的タスクであるコード生成に注目し,主な課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-02-18T03:20:50Z) - Distilling Implicit Multimodal Knowledge into Large Language Models for Zero-Resource Dialogue Generation [22.606764428110566]
ゼロリソースコンテキストにおけるリッチな対話生成のための視覚的暗黙的知識蒸留フレームワーク(VIKDF)を提案する。
VIKDFは、知識蒸留と知識統合の2つの主要な段階で構成されている。
実験の結果,VIKDFは,高品質な対話を生成する上で,既存の最先端モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-16T14:21:33Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - Multimodal Dialog Systems with Dual Knowledge-enhanced Generative Pretrained Language Model [63.461030694700014]
マルチモーダルなタスク指向対話システム(DKMD)のための新しい二元的知識強化型事前学習言語モデルを提案する。
提案したDKMDは,2つの知識選択,2つの知識強調型文脈学習,知識強調型応答生成という3つの重要なコンポーネントから構成される。
パブリックデータセットの実験は、最先端の競合相手よりも提案されたDKMDの優位性を検証する。
論文 参考訳(メタデータ) (2022-07-16T13:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。