論文の概要: Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
- arxiv url: http://arxiv.org/abs/2604.27850v1
- Date: Thu, 30 Apr 2026 13:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.11072
- Title: Reasoning over Object Descriptions Improves Coreference Resolution in Task-Based Dialogue Systems
- Title(参考訳): オブジェクト記述に対する推論はタスクベース対話システムにおける参照解決を改善する
- Authors: Oier Ijurco, Oier Lopez de Lacalle,
- Abstract要約: タスクベースの対話システムは、アクションの実行や情報の検索など、ユーザが特定の目標を達成するのを支援する。
対話の中でオブジェクト参照を特定することを含むため、正確なコア参照解決は不可欠である。
本研究では,大規模言語モデルによる詳細なオブジェクトメタデータと対話履歴の推論を可能にする一元的テスト時推論手法を提案する。
- 参考スコア(独自算出の注目度): 4.617917983223879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-based dialogue systems assist users in achieving specific goals, such as executing actions or retrieving information, through natural language interactions. Accurate coreference resolution is essential, as it involves identifying object references within the dialogue - a task that becomes increasingly challenging in visually grounded environments characterized by complex scenes and diverse object metadata. However, coreference resolution in task-based dialogue remains limited by poor generalization across domains and heavy reliance on supervised models that often overfit to dataset-specific artifacts. In this work, we propose a unimodal test-time reasoning approach that enables large language models (LLMs) to reason over detailed object metadata and dialogue history to improve coreference resolution. Empirical results on the SIMMC 2.1 dataset demonstrate that LLMs can generate step-by-step reasoning processes that effectively align dialogue context with objects present in the scene. Extensive experiments highlight the models' ability to link conversations and objects accurately. Moreover, we show that test-time reasoning under few-shot settings generalizes effectively to unseen scenarios and novel objects, outperforming encoder-based supervised methods in cross-domain evaluations. These findings underscore the critical role of structured metadata and careful prompt engineering in enhancing the robustness and generalization of task-oriented dialogue systems.
- Abstract(参考訳): タスクベースの対話システムは、自然言語による対話を通じて、アクションの実行や情報検索などの特定の目標を達成するのを支援する。
複雑なシーンと多様なオブジェクトメタデータによって特徴づけられる視覚的に基盤付けられた環境において、ますます困難なタスクである対話の中でオブジェクト参照を特定することを含むため、正確なコア参照解決は不可欠である。
しかし、タスクベースの対話におけるコア参照の解決は、ドメイン間の一般化の貧弱さと、しばしばデータセット固有のアーティファクトに過度に適合する教師付きモデルに大きく依存することによって制限されている。
そこで本研究では,大規模言語モデル(LLM)がオブジェクトの詳細なメタデータや対話履歴を解析し,コア参照解決を改善するための一元的テスト時推論手法を提案する。
SIMMC 2.1データセットの実証的な結果は、LLMがステップバイステップの推論プロセスを生成し、シーンに存在するオブジェクトと対話コンテキストを効果的に整合させることを示した。
大規模な実験では、モデルが会話とオブジェクトを正確にリンクする能力を強調している。
さらに,数ショット設定によるテスト時間推論は,未知のシナリオや新しいオブジェクトを効果的に一般化し,ドメイン間評価においてエンコーダに基づく教師付き手法よりも優れていることを示す。
これらの知見は、タスク指向対話システムの堅牢性と一般化を強化する上で、構造化メタデータと慎重なプロンプトエンジニアリングの重要な役割を浮き彫りにした。
関連論文リスト
- A Multimodal Depth-Aware Method For Embodied Reference Understanding [56.30142869506262]
Embodied Reference Understandingでは、言語命令とポインティングキューの両方に基づいて、視覚的なシーンで対象のオブジェクトを識別する必要がある。
本稿では,データ拡張,深度マップのモダリティ,深度認識決定モジュールを共同で活用する新しいERUフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T14:32:21Z) - Multi-Turn Puzzles: Evaluating Interactive Reasoning and Strategic Dialogue in LLMs [21.192619293355502]
大きな言語モデル(LLM)は、明確で完全なステートメントで問題を解決するのに優れています。
このベンチマークは、複雑でインタラクティブなシナリオを扱う上で、現在のLLMの長所と短所に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-08-13T19:14:45Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。