Fugu-MT 論文翻訳(概要): 'What are you referring to?' Evaluating the Ability of Multi-Modal Dialogue Models to Process Clarificational Exchanges

論文の概要: 'What are you referring to?' Evaluating the Ability of Multi-Modal Dialogue Models to Process Clarificational Exchanges

arxiv url: http://arxiv.org/abs/2307.15554v1
Date: Fri, 28 Jul 2023 13:44:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 12:23:28.903333
Title: 'What are you referring to?' Evaluating the Ability of Multi-Modal Dialogue Models to Process Clarificational Exchanges
Title（参考訳）: 「何のことですか。」プロセスの明確化のための多モード対話モデルの能力評価
Authors: Javier Chiyah-Garcia and Alessandro Suglia and Arash Eshghi and Helen Hastie
Abstract要約: 参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
参考スコア（独自算出の注目度）: 65.03196674816772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referential ambiguities arise in dialogue when a referring expression does not uniquely identify the intended referent for the addressee. Addressees usually detect such ambiguities immediately and work with the speaker to repair it using meta-communicative, Clarificational Exchanges (CE): a Clarification Request (CR) and a response. Here, we argue that the ability to generate and respond to CRs imposes specific constraints on the architecture and objective functions of multi-modal, visually grounded dialogue models. We use the SIMMC 2.0 dataset to evaluate the ability of different state-of-the-art model architectures to process CEs, with a metric that probes the contextual updates that arise from them in the model. We find that language-based models are able to encode simple multi-modal semantic information and process some CEs, excelling with those related to the dialogue history, whilst multi-modal models can use additional learning objectives to obtain disentangled object representations, which become crucial to handle complex referential ambiguities across modalities overall.
Abstract（参考訳）: 参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。宛先は通常、そのような曖昧さを直ちに検出し、話者と協力し、メタコミュニケーション、明確化交換(ce)、明確化要求(cr)、応答を用いて修復する。ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。私たちは、simmc 2.0データセットを使用して、cesを処理するためのさまざまな最先端モデルアーキテクチャの能力を評価する。我々は、言語ベースのモデルは単純なマルチモーダルな意味情報をエンコードし、いくつかのcesを処理し、対話履歴に関連するものよりも優れていることを見出し、マルチモーダルモデルは追加の学習目的を用いて、全体的なモダリティの複雑な参照あいまいさを扱うために不可欠となる異角形オブジェクト表現を得ることができる。

関連論文リスト

UniConv: Unifying Retrieval and Response Generation for Large Language Models in Conversations [71.79210031338464]
会話における大規模言語モデルに対する高密度検索と応答生成の統一方法を示す。目的の異なる共同微調整を行い、不整合リスクを低減するための2つのメカニズムを設計する。 5つの対話型検索データセットの評価は、我々の統合モデルがタスクを相互に改善し、既存のベースラインより優れていることを示す。
論文参考訳（メタデータ） (2025-07-09T17:02:40Z)
On Mitigating Data Sparsity in Conversational Recommender Systems [69.70761335240738]
会話レコメンデータシステム(CRS)は、対話中のテキスト情報を通じてユーザの好みをキャプチャする。対話空間は広大で言語的に多様であり、アイテム空間は長い尾とスパース分布を示す。既存の手法では,(1)リッチテキストの活用による多様な対話表現の一般化,(2)重度の疎度下での情報表現の学習に苦慮している。
論文参考訳（メタデータ） (2025-07-01T06:54:51Z)
A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-12T04:22:18Z)
IDEA: Inverted Text with Cooperative Deformable Aggregation for Multi-modal Object Re-Identification [60.38841251693781]
本稿では,ロバストなマルチモーダルオブジェクトReIDを生成する新しいフレームワークを提案する。我々のフレームワークは、多モーダル情報と逆テキストからのセマンティックガイダンスを統合するために、Modal PrefixesとInverseNetを使用している。 3つのマルチモーダルオブジェクトReIDベンチマーク実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2025-03-13T13:00:31Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
Do LLMs suffer from Multi-Party Hangover? A Diagnostic Approach to Addressee Recognition and Response Selection in Conversations [11.566214724241798]
本研究では,会話の特定の構造的属性間でのモデル性能を調査する手法を提案する。我々はモデルの弱点を診断するために、応答選択とアドレス認識タスクに焦点をあてる。その結果、応答選択は会話のテキストの内容に依存しており、アドレス認識ではその構造的次元を捉える必要があることがわかった。
論文参考訳（メタデータ） (2024-09-27T10:07:33Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
InstructERC: Reforming Emotion Recognition in Conversation with Multi-task Retrieval-Augmented Large Language Models [9.611864685207056]
本稿では,識別的枠組みから大規模言語モデル(LLM)に基づく生成的枠組みへ,感情認識タスクを再構築するための新しいアプローチであるインストラクタCを提案する。 InstructERCは、3つの重要な貢献をしている:(1)モデルがマルチグラニュラリティ対話監視情報を明示的に統合するのに役立つ単純で効果的なテンプレートモジュール、(2)話者識別と感情予測タスクという2つの追加の感情アライメントタスクを導入し、会話における対話の役割の関係と将来の感情傾向を暗黙的にモデル化する。
論文参考訳（メタデータ） (2023-09-21T09:22:07Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Learning Interpretable Latent Dialogue Actions With Less Supervision [3.42658286826597]
本稿では,個別変数を用いたタスク指向対話のモデル化のための新しいアーキテクチャを提案する。本モデルは,変化型リカレントニューラルネットワーク(VRNN)に基づいており,意味情報の明示的なアノテーションを必要としない。
論文参考訳（メタデータ） (2022-09-22T16:14:06Z)
Dialogue Meaning Representation for Task-Oriented Dialogue Systems [51.91615150842267]
タスク指向対話のための柔軟かつ容易に拡張可能な表現である対話意味表現(DMR)を提案する。我々の表現は、合成意味論とタスク固有の概念のためのリッチな意味論を表現するために、継承階層を持つノードとエッジのセットを含んでいる。異なる機械学習ベースの対話モデルを評価するための2つの評価タスクを提案し、さらにグラフベースのコア参照解決タスクのための新しいコア参照解決モデルGNNCorefを提案する。
論文参考訳（メタデータ） (2022-04-23T04:17:55Z)
Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。提案手法は,複数の公開データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-03-22T10:13:27Z)
Exploring Multi-Modal Representations for Ambiguity Detection & Coreference Resolution in the SIMMC 2.0 Challenge [60.616313552585645]
会話型AIにおける効果的なあいまいさ検出と参照解決のためのモデルを提案する。具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。以上の結果から,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルではビジョンコンポーネントの必要性を回避できることがわかった。
論文参考訳（メタデータ） (2022-02-25T12:10:02Z)
Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文参考訳（メタデータ） (2020-01-17T14:57:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。