論文の概要: Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach
- arxiv url: http://arxiv.org/abs/2504.14321v1
- Date: Sat, 19 Apr 2025 15:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 01:26:39.625882
- Title: Multimodal Coreference Resolution for Chinese Social Media Dialogues: Dataset and Benchmark Approach
- Title(参考訳): 中国のソーシャルメディア対話におけるマルチモーダル参照解決法:データセットとベンチマークアプローチ
- Authors: Xingyu Li, Chen Gong, Guohong Fu,
- Abstract要約: MCR(Multimodal coreference resolution)は、異なるモードで同じエンティティを参照する参照を識別することを目的としている。
我々は,TikTalkCorefを紹介した。TikTalkCorefは,実世界のシナリオにおけるソーシャルメディアのための,最初の中国のマルチモーダルコアデータセットである。
- 参考スコア(独自算出の注目度): 21.475881921929236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal coreference resolution (MCR) aims to identify mentions referring to the same entity across different modalities, such as text and visuals, and is essential for understanding multimodal content. In the era of rapidly growing mutimodal content and social media, MCR is particularly crucial for interpreting user interactions and bridging text-visual references to improve communication and personalization. However, MCR research for real-world dialogues remains unexplored due to the lack of sufficient data resources.To address this gap, we introduce TikTalkCoref, the first Chinese multimodal coreference dataset for social media in real-world scenarios, derived from the popular Douyin short-video platform. This dataset pairs short videos with corresponding textual dialogues from user comments and includes manually annotated coreference clusters for both person mentions in the text and the coreferential person head regions in the corresponding video frames. We also present an effective benchmark approach for MCR, focusing on the celebrity domain, and conduct extensive experiments on our dataset, providing reliable benchmark results for this newly constructed dataset. We will release the TikTalkCoref dataset to facilitate future research on MCR for real-world social media dialogues.
- Abstract(参考訳): MCR(Multimodal coreference resolution)は、テキストやビジュアルなど、さまざまなモダリティにまたがる同一実体を参照する参照を識別することを目的としており、マルチモーダルコンテンツを理解するのに不可欠である。
マルチモーダルコンテンツやソーシャルメディアが急速に成長する中で、MCRはユーザーインタラクションを解釈し、コミュニケーションとパーソナライゼーションを改善するためにテキスト・ビジュアル参照をブリッジするために特に重要である。
しかし、このギャップに対処するため、Douyin短ビデオプラットフォームから派生した、実世界のシナリオにおけるソーシャルメディアのための最初のマルチモーダルコアデータセットであるTikTalkCorefを紹介した。
本データセットは、ユーザコメントから対応するテキスト対話とショートビデオとを照合し、テキスト中の人名と対応するビデオフレーム内の中核人物頭部領域の両方について、手動で注釈付きコア参照クラスタを含む。
我々はまた、MCRに効果的なベンチマーク手法を提案し、有名人のドメインに焦点を当て、我々のデータセットで広範な実験を行い、新たに構築されたデータセットに対して信頼性の高いベンチマーク結果を提供する。
我々はTikTalkCorefデータセットをリリースし、現実世界のソーシャルメディア対話におけるMCRの今後の研究を促進する。
関連論文リスト
- MSCRS: Multi-modal Semantic Graph Prompt Learning Framework for Conversational Recommender Systems [15.792566559456422]
Conversational Recommender Systems (CRS)は、会話を通じてユーザと対話することでパーソナライズされたレコメンデーションを提供することを目的としている。
我々はMSCRSと呼ばれるCRSのためのマルチモーダルなセマンティックグラフプロンプト学習フレームワークを提案する。
提案手法は項目推薦における精度を大幅に向上し,応答生成においてより自然で文脈的に関連のあるコンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-15T07:05:22Z) - Friends-MMC: A Dataset for Multi-modal Multi-party Conversation Understanding [44.870165050047355]
マルチモーダル・マルチパーティ・会話(MMC)は、あまり研究されていないが重要な研究テーマである。
MMCは、視覚とテキストの両方の文脈に多くのインターロケータが存在するため、文字中心の理解能力を必要とする。
ビデオコンテキストと組み合わせた24,000以上のユニークな発話を含むMCCデータセットであるFriends-MMCを提案する。
論文 参考訳(メタデータ) (2024-12-23T05:32:48Z) - Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。
1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。
視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文 参考訳(メタデータ) (2024-09-30T05:25:51Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - J-CRe3: A Japanese Conversation Dataset for Real-world Reference Resolution [22.911318874589448]
実世界の参照解決において、システムは、エゴセントリックな視点で観察される視覚情報とユーザインタラクションに現れる言語情報を接地しなければならない。
我々は,マルチモーダル参照解決タスクを提案し,実世界参照解決のための日本語会話データセット(J-CRe3)を構築した。
我々のデータセットには、実世界の会話のエゴセントリックなビデオと対話音声が含まれています。
論文 参考訳(メタデータ) (2024-03-28T09:32:43Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - RoME: Role-aware Mixture-of-Expert Transformer for Text-to-Video
Retrieval [66.2075707179047]
そこで本研究では,テキストと動画を3段階に切り離した,新しい混在型トランスフォーマーRoMEを提案する。
我々はトランスフォーマーに基づくアテンション機構を用いて、グローバルレベルとローカルレベルの両方で視覚とテキストの埋め込みを完全に活用する。
提案手法は,YouCook2 および MSR-VTT データセットの最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-26T11:12:49Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Modeling Topical Relevance for Multi-Turn Dialogue Generation [61.87165077442267]
マルチターン対話におけるトピックドリフト問題に対処する新しいモデルSTAR-BTMを提案する。
バイラルトピックモデルは、トレーニングデータセット全体に基づいて事前トレーニングされ、各コンテキストのトピック表現に基づいてトピックレベルの注意重みが計算される。
中国における顧客サービスデータと英語Ubuntuの対話データの両方の実験結果から、STAR-BTMは最先端の手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-09-27T03:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。