論文の概要: When Words Can't Capture It All: Towards Video-Based User Complaint Text Generation with Multimodal Video Complaint Dataset
- arxiv url: http://arxiv.org/abs/2509.19952v1
- Date: Wed, 24 Sep 2025 10:00:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.768074
- Title: When Words Can't Capture It All: Towards Video-Based User Complaint Text Generation with Multimodal Video Complaint Dataset
- Title(参考訳): ビデオベースのユーザ記述テキスト生成を目指したマルチモーダルビデオ記述データセット
- Authors: Sarmistha Das, R E Zera Marveen Lyngkhoi, Kirtan Jain, Vinayak Goyal, Sriparna Saha, Manish Gupta,
- Abstract要約: 本稿では, 苦情マイニングの分野での新たな課題を定式化し, 利用者が表現力のある苦情を書くことを支援する。
この目的のために,1,175本の苦情ビデオと対応する記述を含むビデオ苦情データセットであるComVIDを紹介する。
本稿では,提案した(CoD-V)タスクを標準映像要約タスクと区別するCR評価指標を提案する。
- 参考スコア(独自算出の注目度): 16.513515668714053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While there exists a lot of work on explainable complaint mining, articulating user concerns through text or video remains a significant challenge, often leaving issues unresolved. Users frequently struggle to express their complaints clearly in text but can easily upload videos depicting product defects (e.g., vague text such as `worst product' paired with a 5-second video depicting a broken headphone with the right earcup). This paper formulates a new task in the field of complaint mining to aid the common users' need to write an expressive complaint, which is Complaint Description from Videos (CoD-V) (e.g., to help the above user articulate her complaint about the defective right earcup). To this end, we introduce ComVID, a video complaint dataset containing 1,175 complaint videos and the corresponding descriptions, also annotated with the emotional state of the complainer. Additionally, we present a new complaint retention (CR) evaluation metric that discriminates the proposed (CoD-V) task against standard video summary generation and description tasks. To strengthen this initiative, we introduce a multimodal Retrieval-Augmented Generation (RAG) embedded VideoLLaMA2-7b model, designed to generate complaints while accounting for the user's emotional state. We conduct a comprehensive evaluation of several Video Language Models on several tasks (pre-trained and fine-tuned versions) with a range of established evaluation metrics, including METEOR, perplexity, and the Coleman-Liau readability score, among others. Our study lays the foundation for a new research direction to provide a platform for users to express complaints through video. Dataset and resources are available at: https://github.com/sarmistha-D/CoD-V.
- Abstract(参考訳): 説明可能な苦情のマイニングに関する作業はたくさんあるが、テキストやビデオを通じてユーザーの懸念を明確に述べることは大きな課題であり、しばしば未解決のままである。
ユーザはしばしば、不満をテキストで明確に表現することに苦労するが、製品の欠陥を描写したビデオを簡単にアップロードできる(例:‘Worst product’のような曖昧なテキストと、壊れたヘッドホンと右のイヤーカップを描写した5秒のビデオ)。
本論文は, ビデオ(CoD-V)からの苦情記述である表現的苦情を, 一般利用者が記述する必要があることを支援するために, 苦情マイニングの分野で新たな課題を定式化したものである。
この目的のために,1,175本の苦情ビデオとそれに対応する説明を含むビデオ苦情データセットであるComVIDを紹介する。
さらに、提案した(CoD-V)タスクを標準映像要約生成と記述タスクと区別する新しい不満保持尺度(CR)を提案する。
このイニシアチブを強化するために,ユーザの感情状態を考慮したマルチモーダル検索・拡張生成(RAG)組み込みの VideoLLaMA2-7b モデルを提案する。
我々は,複数のタスク(事前訓練および微調整)におけるビデオ言語モデルの包括的評価を行い,METEOR,パープレキシティ,Coleman-Liau可読性スコアなど,確立された評価指標を用いて評価を行う。
本研究は、ユーザーがビデオを通じて苦情を表現できるプラットフォームを提供するための、新たな研究方向の基盤となるものである。
データセットとリソースは、https://github.com/sarmistha-D/CoD-V.comで入手できる。
関連論文リスト
- Beyond Simple Edits: Composed Video Retrieval with Dense Modifications [96.46069692338645]
多様なビデオセグメントにまたがる細粒度および構成されたアクションをキャプチャする新しいデータセットを提案する。
Dense-WebVid-CoVRは、1.6万のサンプルからできており、修正テキストは既存のものより約7倍多い。
我々は,Cross-Attention (CA) 融合により視覚情報とテキスト情報を統合した新しいモデルを開発した。
論文 参考訳(メタデータ) (2025-08-19T17:59:39Z) - Respond Beyond Language: A Benchmark for Video Generation in Response to Realistic User Intents [30.228721661677493]
RealVideoQuestは、リアルタイムで視覚的に接地されたクエリに応答するテキスト・ツー・ビデオ(T2V)モデルの能力を評価するように設計されている。
ビデオ応答インテントで7.5Kの実際のユーザクエリを特定し、4.5Kの高品質なクエリとビデオのペアを構築する。
実験によると、現在のT2Vモデルは、実際のユーザクエリに効果的に対処するのに苦労している。
論文 参考訳(メタデータ) (2025-06-02T13:52:21Z) - VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement [63.4357918830628]
VideoRepairは、モデルに依存しない、トレーニングなしのビデオリファインメントフレームワークである。
微粒なテキストビデオの誤りを特定し、明示的な空間的およびテキスト的フィードバックを生成する。
VideoRepairは、テキストとビデオのアライメントの指標で、最近のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2024-11-22T18:31:47Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Identifying False Content and Hate Speech in Sinhala YouTube Videos by
Analyzing the Audio [0.0]
本研究は、シンハラのYouTubeビデオにおける暴力や誤報の拡散を最小限に抑える方法を提案する。
このアプローチでは、タイトルと記述をオーディオコンテンツと比較することにより、ビデオに偽情報が含まれているかどうかを評価する評価システムを開発する。
論文 参考訳(メタデータ) (2024-01-30T08:08:34Z) - Edit As You Wish: Video Caption Editing with Multi-grained User Control [61.76233268900959]
マルチグラデーションなユーザリクエストでガイドされた既存のビデオ記述を自動的に修正する新しい textbfVideo textbfCaption textbfEditing textbf(VCE) タスクを提案する。
人間の書き直し習慣にインスパイアされたユーザコマンドは、粗い粒度からきめ細かな粒度まで多様なユーザニーズをカバーするために、重要な3重テキスト操作、位置、属性として設計される。
論文 参考訳(メタデータ) (2023-05-15T07:12:19Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - VTC: Improving Video-Text Retrieval with User Comments [22.193221760244707]
本稿では,ビデオ,タイトル,コメントの新しいデータセットを紹介する。
コメントを用いることで、画像、ビデオ、音声の表現をより良く、より文脈的に学習することができる。
論文 参考訳(メタデータ) (2022-10-19T18:11:39Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews [47.726065950436585]
本稿では,ビデオレビューから詳細な意見をマイニングするためのマルチモーダル手法を提案する。
私たちのアプローチは、時間アノテーションを必要とせずに、文レベルで機能します。
論文 参考訳(メタデータ) (2020-05-27T13:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。