論文の概要: Disambiguating Reference in Visually Grounded Dialogues through Joint Modeling of Textual and Multimodal Semantic Structures
- arxiv url: http://arxiv.org/abs/2505.11726v1
- Date: Fri, 16 May 2025 22:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.808037
- Title: Disambiguating Reference in Visually Grounded Dialogues through Joint Modeling of Textual and Multimodal Semantic Structures
- Title(参考訳): テクスチャとマルチモーダルのセマンティック構造の連成モデリングによる視覚的接地対話における曖昧な参照
- Authors: Shun Inadumi, Nobuhiro Ueda, Koichiro Yoshino,
- Abstract要約: フレーズ接頭辞を含むマルチモーダル参照解決は、言及と現実世界のオブジェクト間の意味的関係を理解することを目的としている。
本稿では,オブジェクトの埋め込みに参照埋め込みをマッピングすることで,テキストとマルチモーダルの参照解決を統一するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.004446243999134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reference resolution, including phrase grounding, aims to understand the semantic relations between mentions and real-world objects. Phrase grounding between images and their captions is a well-established task. In contrast, for real-world applications, it is essential to integrate textual and multimodal reference resolution to unravel the reference relations within dialogue, especially in handling ambiguities caused by pronouns and ellipses. This paper presents a framework that unifies textual and multimodal reference resolution by mapping mention embeddings to object embeddings and selecting mentions or objects based on their similarity. Our experiments show that learning textual reference resolution, such as coreference resolution and predicate-argument structure analysis, positively affects performance in multimodal reference resolution. In particular, our model with coreference resolution performs better in pronoun phrase grounding than representative models for this task, MDETR and GLIP. Our qualitative analysis demonstrates that incorporating textual reference relations strengthens the confidence scores between mentions, including pronouns and predicates, and objects, which can reduce the ambiguities that arise in visually grounded dialogues.
- Abstract(参考訳): フレーズ接頭辞を含むマルチモーダル参照解決は、言及と現実世界のオブジェクト間の意味的関係を理解することを目的としている。
画像とキャプションの間のフレーズの接地は、十分に確立されたタスクである。
対照的に、現実世界のアプリケーションでは、特に代名詞や楕円によるあいまいさの扱いにおいて、対話内の参照関係を解明するために、テキストとマルチモーダルの参照解決を統合することが不可欠である。
本稿では,オブジェクトの埋め込みに参照埋め込みをマッピングし,類似性に基づいて参照やオブジェクトを選択することで,テキストとマルチモーダルの参照解決を統一するフレームワークを提案する。
実験の結果,コア参照分解能や述語句構造解析などのテキスト参照分解能の学習は,マルチモーダル参照分解能の性能に肯定的な影響を及ぼすことがわかった。
特に、このタスクの代名詞モデルであるMDETRやGLIPよりも、代名詞の接頭辞において、コア参照分解能を持つモデルの方が優れている。
我々の質的分析は、テキスト参照関係を取り入れることで、代名詞や述語を含む言及とオブジェクト間の信頼スコアが強化され、視覚的に接する対話において生じる曖昧さを低減できることを示した。
関連論文リスト
- Hire: Hybrid-modal Interaction with Multiple Relational Enhancements for Image-Text Matching [7.7559623054251]
画像テキストマッチング(ITM)はコンピュータビジョンの基本的な問題である。
画像テキストマッチングのためのマルチエンハンスメント(termed textitHire)を用いたハイブリッドモーダル機能を提案する。
特に、明示的なモーダル空間意味グラフに基づく推論ネットワークは、視覚オブジェクトの文脈表現を改善するために設計されている。
論文 参考訳(メタデータ) (2024-06-05T13:10:55Z) - J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution [22.911318874589448]
実世界の参照解決において、システムは、エゴセントリックな視点で観察される視覚情報とユーザインタラクションに現れる言語情報を接地しなければならない。
我々は,マルチモーダル参照解決タスクを提案し,実世界参照解決のための日本語会話データセット(J-CRe3)を構築した。
我々のデータセットには、実世界の会話のエゴセントリックなビデオと対話音声が含まれています。
論文 参考訳(メタデータ) (2024-03-28T09:32:43Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Cross-modal Semantic Enhanced Interaction for Image-Sentence Retrieval [8.855547063009828]
本稿では、画像文検索のためのCMSEIと呼ばれるクロスモーダル・セマンティック・エンハンスメント・インタラクション手法を提案する。
まず、オブジェクトの意味表現を強化するために、モーダル内およびモーダル間空間および意味グラフに基づく推論を設計する。
オブジェクトのコンテキストとテキストのコンテキストを関連付けるために,クロスレベルなオブジェクト文と単語画像に基づく対話的注意による視覚的意味表現をさらに洗練する。
論文 参考訳(メタデータ) (2022-10-17T10:01:16Z) - Improve Discourse Dependency Parsing with Contextualized Representations [28.916249926065273]
本稿では,異なるレベルの単位の文脈化表現を符号化するトランスフォーマーの活用を提案する。
記事間で共通に共有される記述パターンの観察に動機付けられ,談話関係の識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-04T14:35:38Z) - Meta-Context Transformers for Domain-Specific Response Generation [4.377737808397113]
本稿では,ドメイン固有属性の強化による対話応答生成のためのトランスフォーマーベースモデルDSRNetを提案する。
ドメイン固有応答生成のためのマルチターンマルチインターロケータ環境におけるDSRNetの利用について検討する。
BLEUと意味的類似性(BertScore)が向上したマルチターン対話システムに対して,本モデルでは高い精度向上を実現した。
論文 参考訳(メタデータ) (2020-10-12T09:49:27Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。