Fugu-MT 論文翻訳(概要): 'No' Matters: Out-of-Distribution Detection in Multimodality Long Dialogue

論文の概要: 'No' Matters: Out-of-Distribution Detection in Multimodality Long Dialogue

arxiv url: http://arxiv.org/abs/2410.23883v1
Date: Thu, 31 Oct 2024 12:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:42.809625
Title: 'No' Matters: Out-of-Distribution Detection in Multimodality Long Dialogue
Title（参考訳）: ノー」問題:多モード長対話におけるアウト・オブ・ディストリビューション検出
Authors: Rena Gao, Xuetong Wu, Siwen Luo, Caren Han, Feng Liu,
Abstract要約: 本稿では,OOD対話と画像の効率よく検出することで,複数ラウンドの長い対話を含むユーザエクスペリエンスを向上させることを目的とする。本稿では,視覚言語モデルと新たなスコアを統合したDIAEF(Dialogue Image Aligning and Enhancing Framework)を提案する。
参考スコア（独自算出の注目度）: 3.971267935825097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Out-of-distribution (OOD) detection in multimodal contexts is essential for identifying deviations in combined inputs from different modalities, particularly in applications like open-domain dialogue systems or real-life dialogue interactions. This paper aims to improve the user experience that involves multi-round long dialogues by efficiently detecting OOD dialogues and images. We introduce a novel scoring framework named Dialogue Image Aligning and Enhancing Framework (DIAEF) that integrates the visual language models with the novel proposed scores that detect OOD in two key scenarios (1) mismatches between the dialogue and image input pair and (2) input pairs with previously unseen labels. Our experimental results, derived from various benchmarks, demonstrate that integrating image and multi-round dialogue OOD detection is more effective with previously unseen labels than using either modality independently. In the presence of mismatched pairs, our proposed score effectively identifies these mismatches and demonstrates strong robustness in long dialogues. This approach enhances domain-aware, adaptive conversational agents and establishes baselines for future studies.
Abstract（参考訳）: マルチモーダル・コンテキストにおけるアウト・オブ・ディストリビューション(OOD)検出は、特にオープン・ドメイン・ダイアログシステムやリアル・ライフ・ダイアログ・インタラクションのようなアプリケーションにおいて、異なるモーダルからの組み合わせ入力における偏差を特定するのに不可欠である。本稿では,OOD対話と画像の効率よく検出することで,複数ラウンドの長い対話を含むユーザエクスペリエンスを向上させることを目的とする。視覚言語モデルと2つの主要なシナリオにおいてOODを検出する新たなスコアとを統合した新しいスコアフレームワークであるDIAEFを紹介した。様々なベンチマークから得られた実験結果から、画像と多ラウンド対話OOD検出の統合は、これまで見られなかったラベルに対して、どちらのモードも独立して使用するよりも効果的であることが示された。一致しないペアが存在する場合,提案したスコアはこれらのミスマッチを効果的に識別し,長い対話において強い堅牢性を示す。このアプローチは、ドメイン認識、適応的な会話エージェントを強化し、将来の研究のベースラインを確立する。

関連論文リスト

Visualizing Dialogues: Enhancing Image Selection through Dialogue Understanding with Large Language Models [25.070424546200293]
本稿では,大規模言語モデル(LLM)の頑健な推論機能を活用して,正確な対話関連視覚記述子を生成する手法を提案する。ベンチマークデータを用いて行った実験は、簡潔で正確な視覚記述子の導出における提案手法の有効性を検証した。本研究は,多様な視覚的手がかり,多様なLCM,異なるデータセットにまたがる手法の一般化可能性を示すものである。
論文参考訳（メタデータ） (2024-07-04T03:50:30Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts [91.43701971416213]
我々は,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。 CaroはF1-OODスコアを29%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。
論文参考訳（メタデータ） (2023-05-05T01:39:21Z)
User Satisfaction Estimation with Sequential Dialogue Act Modeling in Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。 USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。 4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2022-02-07T02:50:07Z)
A Context-Aware Hierarchical BERT Fusion Network for Multi-turn Dialog Act Detection [6.361198391681688]
CaBERT-SLUはコンテキスト対応階層型BERT融合ネットワーク(CaBERT-SLU)である提案手法は,2つの複雑なマルチターン対話データセットにおいて,最新技術(SOTA)のパフォーマンスに到達する。
論文参考訳（メタデータ） (2021-09-03T02:00:03Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)
Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文参考訳（メタデータ） (2020-05-27T02:05:33Z)
Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文参考訳（メタデータ） (2020-04-17T03:51:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。