論文の概要: A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews
- arxiv url: http://arxiv.org/abs/2005.13362v2
- Date: Thu, 28 May 2020 03:13:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 08:01:18.708719
- Title: A Multi-modal Approach to Fine-grained Opinion Mining on Video Reviews
- Title(参考訳): ビデオレビューにおける微細オピニオンマイニングへのマルチモーダルアプローチ
- Authors: Edison Marrese-Taylor, Cristian Rodriguez-Opazo, Jorge A. Balazs,
Stephen Gould, Yutaka Matsuo
- Abstract要約: 本稿では,ビデオレビューから詳細な意見をマイニングするためのマルチモーダル手法を提案する。
私たちのアプローチは、時間アノテーションを必要とせずに、文レベルで機能します。
- 参考スコア(独自算出の注目度): 47.726065950436585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent advances in opinion mining for written reviews, few works
have tackled the problem on other sources of reviews. In light of this issue,
we propose a multi-modal approach for mining fine-grained opinions from video
reviews that is able to determine the aspects of the item under review that are
being discussed and the sentiment orientation towards them. Our approach works
at the sentence level without the need for time annotations and uses features
derived from the audio, video and language transcriptions of its contents. We
evaluate our approach on two datasets and show that leveraging the video and
audio modalities consistently provides increased performance over text-only
baselines, providing evidence these extra modalities are key in better
understanding video reviews.
- Abstract(参考訳): 書評に対する意見採鉱の最近の進歩にもかかわらず、他の書評の出所でこの問題に取り組む研究はほとんどない。
本稿では,議論中の項目の側面と,それに対する感情の方向性を判断できる映像レビューから詳細な意見を抽出するためのマルチモーダルアプローチを提案する。
本手法は時間アノテーションを必要とせずに文レベルで動作し,その内容の音声,ビデオ,言語文の書き起こしから得られる特徴を利用する。
我々は2つのデータセットに対するアプローチを評価し、ビデオとオーディオのモダリティを活用することで、テキストのみのベースラインよりもパフォーマンスが向上することを示す。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - HOTVCOM: Generating Buzzworthy Comments for Videos [49.39846630199698]
この研究は、中国最大のビデオコンテンツデータセットであるtextscHotVComを紹介し、94万の多様なビデオと1億1700万のコメントからなる。
また、中国語のビデオデータセット上で、視覚的、聴覚的、テキスト的データを相乗的に統合し、影響力のあるホットコンテンツを生成するtexttComHeatフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-23T16:45:13Z) - Reviewer2: Optimizing Review Generation Through Prompt Generation [27.379753994272875]
本稿では、Reviewer2と呼ばれる効率的な2段階レビュー生成フレームワークを提案する。
従来の作業とは異なり、このアプローチは、レビューが対処する可能性のある側面の分布を明示的にモデル化する。
アスペクトプロンプトでアノテートした27k論文と99kレビューの大規模なレビューデータセットを生成します。
論文 参考訳(メタデータ) (2024-02-16T18:43:10Z) - End-to-End Evaluation for Low-Latency Simultaneous Speech Translation [55.525125193856084]
本稿では,低遅延音声翻訳の様々な側面を現実的な条件下で実行し,評価するための第1の枠組みを提案する。
これには、オーディオのセグメンテーションと、異なるコンポーネントの実行時間が含まれる。
また、このフレームワークを用いて低遅延音声翻訳の異なるアプローチを比較する。
論文 参考訳(メタデータ) (2023-08-07T09:06:20Z) - Video Summarization Overview [25.465707307283434]
ビデオ要約は、ビデオのコンパクトな要約を作成することにより、ビデオコンテンツを素早く把握することを容易にする。
本調査は, ディープラーニング技術を活用した最近のアプローチと同様に, 早期研究についても取り上げる。
論文 参考訳(メタデータ) (2022-10-21T03:29:31Z) - Video Moment Retrieval from Text Queries via Single Frame Annotation [65.92224946075693]
ビデオモーメント検索は、与えられた自然言語クエリによって記述されたモーメントの開始と終了のタイムスタンプを見つけることを目的としている。
完全な教師付き手法は、有望な結果を達成するために完全な時間境界アノテーションを必要とする。
我々は「用語アノテーション」と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-20T11:59:17Z) - Fill-in-the-blank as a Challenging Video Understanding Evaluation
Framework [19.031957183047048]
28,000の動画と補足テストからなる新しいデータセットを導入する。
マルチモーダルモデルと強力な言語モデルの両方が、人間のパフォーマンスに大きなギャップがあることが示される。
論文 参考訳(メタデータ) (2021-04-09T04:00:10Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - How Useful are Reviews for Recommendation? A Critical Review and
Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。
実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。
さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文 参考訳(メタデータ) (2020-05-25T16:30:05Z) - What comprises a good talking-head video generation?: A Survey and
Benchmark [40.26689818789428]
本稿では,標準化されたデータセット前処理戦略を用いた対話型ビデオ生成の評価ベンチマークを提案する。
提案手法は,対話型ビデオに望ましい特性とみなす結果を評価するために,新しい指標を提案するか,最も適した指標を選択する。
論文 参考訳(メタデータ) (2020-05-07T01:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。