論文の概要: Predicting Media Memorability: Comparing Visual, Textual and Auditory
Features
- arxiv url: http://arxiv.org/abs/2112.07969v1
- Date: Wed, 15 Dec 2021 08:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 22:02:08.827581
- Title: Predicting Media Memorability: Comparing Visual, Textual and Auditory
Features
- Title(参考訳): メディア記憶力の予測 : 視覚的, テキスト的, 聴覚的特徴の比較
- Authors: Lorin Sweeney and Graham Healy and Alan F. Smeaton
- Abstract要約: 本稿では,メディアEval 2021における予測メディア記憶可能性タスクへのアプローチについて述べる。
ビデオの記憶可能性を自動的に予測するタスクを設定することで,メディアの記憶可能性の問題に対処することを目的とする。
- 参考スコア(独自算出の注目度): 1.8506048493564673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes our approach to the Predicting Media Memorability task
in MediaEval 2021, which aims to address the question of media memorability by
setting the task of automatically predicting video memorability. This year we
tackle the task from a comparative standpoint, looking to gain deeper insights
into each of three explored modalities, and using our results from last year's
submission (2020) as a point of reference. Our best performing short-term
memorability model (0.132) tested on the TRECVid2019 dataset -- just like last
year -- was a frame based CNN that was not trained on any TRECVid data, and our
best short-term memorability model (0.524) tested on the Memento10k dataset,
was a Bayesian Ride Regressor fit with DenseNet121 visual features.
- Abstract(参考訳): 本稿では,メディア記憶可能性を自動的に予測するタスクを設定し,メディア記憶可能性の問題に対処することを目的としたmediaeval 2021におけるメディア記憶可能性予測タスクのアプローチについて述べる。
今年は,3つの探索されたモダリティのそれぞれについてより深い洞察を得るとともに,昨年の提出(2020年)の成果を参考として,比較の観点からタスクに取り組む。
昨年のように、TRECVid2019データセットでテストされた私たちの最高の短期記憶モデル(0.132)は、TRECVidデータでトレーニングされていないフレームベースのCNNで、Memento10kデータセットでテストされた最高の短期記憶モデル(0.524)は、DenseNet121ビジュアル機能に適合したベイジアンライド回帰器でした。
関連論文リスト
- DeVAn: Dense Video Annotation for Video-Language Models [68.70692422636313]
実世界のビデオクリップに記述を生成する視覚言語モデルの有効性を評価するために,人間の注釈付きデータセットを提案する。
データセットには、20秒から60秒間の8.5KのYouTubeビデオクリップが含まれており、幅広いトピックや関心事をカバーしている。
論文 参考訳(メタデータ) (2023-10-08T08:02:43Z) - Boosting Long-tailed Object Detection via Step-wise Learning on
Smooth-tail Data [60.64535309016623]
カテゴリの長い尾の分布がスムーズに減衰し、ヘッドクラスに対するバイアスを補正するスムーズなテールデータを構築する。
我々は,ヘッドクラス支配的なリプレイデータに基づいて,事前学習したモデルのクラスに依存しないモジュールを微調整する。
我々は、すべてのカテゴリの正確な検出を保証するため、トップクラスエキスパートモデルから知識を伝達しながら、テールクラス支配的なリプレイデータ上で統一モデルを訓練する。
論文 参考訳(メタデータ) (2023-05-22T08:53:50Z) - Overview of The MediaEval 2022 Predicting Video Memorability Task [5.032429663272684]
本稿では,MediaEval2022の一部として,Predicting Video Memorability Taskの第5版について述べる。
昨年と同様、一般化を容易にするために2つのデータセットが提供されている。
TRECVid 2019 Video-to-TextデータセットをVideoMemデータセットに置き換えました。
完全発生脳波(EEG)に基づく予測サブタスクが導入された。
論文 参考訳(メタデータ) (2022-12-13T12:02:21Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Temporal Alignment Networks for Long-term Video [103.69904379356413]
本稿では,長時間のビデオシーケンスと関連するテキストを取り込み,時間的アライメントネットワークを提案する。
我々は、関連するテキストが大きなノイズを持つHowTo100Mのような大規模データセットから、そのようなネットワークをトレーニングする。
提案モデルでは,HowTo100Mに基づいてトレーニングし,このアライメントデータセット上での強いベースライン(CLIP, MIL-NCE)を上回った。
論文 参考訳(メタデータ) (2022-04-06T17:59:46Z) - Overview of The MediaEval 2021 Predicting Media Memorability Task [4.986121006088218]
MediaEval 2021 Predicting Media Memorabilitytaskは今年の第4版だ。
タスクの主な側面を概説し、データセット、評価指標、参加者の提出要求について説明する。
論文 参考訳(メタデータ) (2021-12-11T13:30:18Z) - 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and
Aesthetic Assessment on Integrated Circuit [17.471330378900657]
本論文では,ICDAR 2021ロバストリーディングチャレンジ-集積回路テキストスポッティングと審美評価への提案手法を提案する。
テキストスポッティングタスクでは、統合回路上で文字を検出し、yolov5検出モデルに基づいて分類する。
審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
論文 参考訳(メタデータ) (2021-04-08T06:52:49Z) - STEP: Segmenting and Tracking Every Pixel [107.23184053133636]
新しいベンチマークを示す: Segmenting and Tracking Every Pixel (STEP)
私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。
性能を測定するために,新しい評価指標と追跡品質(STQ)を提案する。
論文 参考訳(メタデータ) (2021-02-23T18:43:02Z) - Overview of MediaEval 2020 Predicting Media Memorability Task: What
Makes a Video Memorable? [6.179004622699381]
本稿では,MediaEval 2020 textitPredicting Media Memorabilityタスクについて述べる。
短期的および長期的ビデオ記憶可能性(VM)の予測は依然として難しい課題である。
今年のビデオは、アクションリッチなビデオコンテンツを含む、TRECVid 2019 Video-to-Textデータセットのサブセットだ。
論文 参考訳(メタデータ) (2020-12-31T15:12:52Z) - ERNIE at SemEval-2020 Task 10: Learning Word Emphasis Selection by
Pre-trained Language Model [18.41476971318978]
本稿では,SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual Mediaにおいて,ERNIE Teamによって設計されたシステムについて述べる。
教師なし事前学習モデルを活用し、これらのモデルをタスクで微調整します。
我々の最良のモデルは0.823の最高スコアを達成し、あらゆる種類の指標で第1位となる。
論文 参考訳(メタデータ) (2020-09-08T12:51:22Z) - Rescaling Egocentric Vision [48.57283024015145]
本稿では,エゴセントリックビジョンにおける最大のデータセットであるEPIC-KITCHENSを拡張するパイプラインを紹介する。
この取り組みは、100時間20Mフレーム、700の可変長ビデオの90KアクションからなるEPIC-KITCHENS-100で頂点に達した。
EPIC-KITCHENS-100は以前のバージョンと比較して、より密度の高い(毎分54%のアクション)アクションとより完全なアクションアノテーション(+128%以上のアクションセグメント)を可能にする新しいパイプラインを使用して注釈付けされている。
論文 参考訳(メタデータ) (2020-06-23T18:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。