論文の概要: Using Machine Mental Imagery for Representing Common Ground in Situated Dialogue
- arxiv url: http://arxiv.org/abs/2604.21144v1
- Date: Wed, 22 Apr 2026 23:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.210083
- Title: Using Machine Mental Imagery for Representing Common Ground in Situated Dialogue
- Title(参考訳): 音声対話における共通場表現のためのマシン・メンタル・イメージの利用
- Authors: Biswesh Mohapatra, Giovanni Duca, Laurent Romary, Justine Cassell,
- Abstract要約: 話し手は、共有コンテキストの信頼性のある表現を維持する必要がある。
現在の会話エージェントは、しばしばこの要件に苦しむ。
本稿では,対話状態を永続的な視覚履歴に変換するアクティブな視覚足場フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.1039961644960186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Situated dialogue requires speakers to maintain a reliable representation of shared context rather than reasoning only over isolated utterances. Current conversational agents often struggle with this requirement, especially when the common ground must be preserved beyond the immediate context window. In such settings, fine-grained distinctions are frequently compressed into purely textual representations, leading to a critical failure mode we call \emph{representational blur}, in which similar but distinct entities collapse into interchangeable descriptions. This semantic flattening creates an illusion of grounding, where agents appear locally coherent but fail to track shared context persistently over time. Inspired by the role of mental imagery in human reasoning, and based on the increased availability of multimodal models, we explore whether conversational agents can be given an analogous ability to construct some depictive intermediate representations during dialogue to address these limitations. Thus, we introduce an active visual scaffolding framework that incrementally converts dialogue state into a persistent visual history that can later be retrieved for grounded response generation. Evaluation on the IndiRef benchmark shows that incremental externalization itself improves over full-dialog reasoning, while visual scaffolding provides additional gains by reducing representational blur and enforcing concrete scene commitments. At the same time, textual representations remain advantageous for non-depictable information, and a hybrid multimodal setting yields the best overall performance. Together, these findings suggest that conversational agents benefit from an explicitly multimodal representation of common ground that integrates depictive and propositional information.
- Abstract(参考訳): 定位対話では、話者は孤立した発話のみを推論するのではなく、共有コンテキストの信頼性のある表現を維持する必要がある。
現在の会話エージェントはこの要件に苦しむことが多く、特に共通基盤が即時コンテキストウィンドウを超えて保存されなければならない場合である。
このような設定では、きめ細かい区別はしばしば純粋にテキスト表現に圧縮されるため、我々が「emph{representational blur}」と呼ぶ臨界失敗モードとなり、類似しているが別個の実体が交換可能な記述に崩壊する。
このセマンティックフラット化は、エージェントが局所的に一貫性を持つように見えるが、時間とともに共有コンテキストの追跡に失敗する、グラウンド化の錯覚を生み出す。
人間の推論における心的イメージの役割に触発され、多モーダルモデルが利用可能になったことを踏まえ、会話エージェントは、これらの制限に対処するために対話中にいくつかの描写的な中間表現を構築することができるのかを考察する。
そこで本稿では,対話状態を永続的な視覚履歴に段階的に変換する,アクティブな視覚足場構築フレームワークを提案する。
IndiRefベンチマークの評価では、インクリメンタルな外部化自体が完全なダイアログ推論よりも改善されている一方で、視覚的なスキャフォールディングは、表現のぼやけを減らし、具体的なシーンのコミットメントを強制することによって、さらなる利益をもたらす。
同時に、テキスト表現は非決定的な情報に対して有利なままであり、ハイブリッドマルチモーダル設定は、全体的なパフォーマンスを最高のものにします。
これらの結果から,会話エージェントは,具体的情報と命題情報を統合した共通基盤のマルチモーダル表現の恩恵を受けることが示唆された。
関連論文リスト
- Frame of Reference: Addressing the Challenges of Common Ground Representation in Situational Dialogs [2.730457204085116]
音声対話において、共通場は重要な役割を担い、対話者は、一貫性のある対話を維持するために、実体、出来事、関係の共有参照を維持する必要がある。
我々は、状況対話において、共有コンテキスト内のエンティティへのリレーショナル参照を通じて、共通基盤を確立し、活用するモデルの能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T10:45:22Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Disambiguating Reference in Visually Grounded Dialogues through Joint Modeling of Textual and Multimodal Semantic Structures [3.004446243999134]
フレーズ接頭辞を含むマルチモーダル参照解決は、言及と現実世界のオブジェクト間の意味的関係を理解することを目的としている。
本稿では,オブジェクトの埋め込みに参照埋め込みをマッピングすることで,テキストとマルチモーダルの参照解決を統一するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-16T22:14:58Z) - Improving Joint Speech-Text Representations Without Alignment [92.60384956736536]
本研究では, 連続長を無視することで, 音節間の一貫した表現を自然に実現できることを示す。
一貫性の喪失は長さの差を許し、最適のアライメントを前提にできると我々は主張する。
論文 参考訳(メタデータ) (2023-08-11T13:28:48Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Context-Dependent Embedding Utterance Representations for Emotion
Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。
それぞれの発話の文脈依存的な埋め込み表現を提案する。
提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文 参考訳(メタデータ) (2023-04-17T12:37:57Z) - Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。
我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。
異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文 参考訳(メタデータ) (2022-04-23T04:17:55Z) - DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust
Conversational Modeling [3.3578533367912025]
本稿では,対話コンテキストの拡張バージョンを学習目的に組み込むフレームワークを提案する。
提案手法は,従来のデータ拡張手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-15T23:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。